当前,我国信创产业已进入规模化推广的关键阶段,产业链覆盖基础硬件、基础软件、应用软件、信息安全等数十个细分领域,技术迭代速度快、企业分布分散的行业特征,使得产业主管部门、市场主体对产业链精准画像、动态监测的需求持续攀升。作为全国数据要素市场化配置改革的先行地区,浙江省搭建的数据知识产权登记平台是国内官方层面推进数据权属确认、合规流通的核心基础设施,主要承担数据资源的合规校验、权属登记、流通备案等职能,为数据资产的后续交易、授权使用提供合规效力,本次信创领域训练数据的登记,正是该平台在垂直产业场景落地的典型成果。
2026年5月26日,火石创造科技有限公司旗下的信息技术应用创新产业链结构文本训练数据正式在该平台完成知识产权登记。据介绍,该数据集专门服务于信创产业链智能分类与产业图谱构建模型的训练与开发,通过关联企业文本与技术领域标签,为信创产业全场景的数字化分析提供标准化数据工具。
为保障数据安全合规,该数据集在加工前已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》等相关法律法规要求,为后续模型训练提供了洁净、可靠的输入基础。
在数据加工环节,团队严格遵循“体系先行、业务匹配、特征抽取”的核心规则,构建了全流程标准化的处理体系:首先对标国家信创产业分类标准及技术架构,搭建了覆盖4级节点的树状分类体系,一级节点为“信息技术应用创新”,二级节点划分为“IT基础”和“应用软件”,三级节点进一步细分为“基础设施”“基础软件”“通用型软件”“行业应用软件”,四级节点则包含“大数据”“传感器”“数据库”“芯片”“政务软件”等数十个具体技术领域,为数据标注提供了专业、统一的技术框架。随后采用“自动化规则匹配与人工校验相结合”的策略完成业务匹配:依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的信创产业语义规则库自动推荐初步分类节点,再由具备信息技术行业专业背景的标注专家逐一审核判定,确保企业分类的精准性。在完成分类的同时,团队还会从企业简介文本中系统性抽取代表其核心产品与技术的关键术语,经过去重、标准化处理后形成“正向词”特征串,作为分类标签的语义补充,进一步提升数据集的标注丰富度。
最终形成的数据集为标准化的“文本-标签”结构,每条数据均包含脱敏后的企业描述文本、经人工校验的1-4级完整分类标签、细化的技术特征词与产业标签,全面覆盖信创产业全核心环节,可直接用于信创产业链分析、技术供应商智能分类、产业地图绘制等模型的训练与评估。从应用场景来看,该数据集训练得到的AI模型可支持三大类典型需求:一是产业链完整度分析,辅助地方工信、发改等产业规划部门梳理区域信创产业链在基础硬件、基础软件、基础设施、应用软件等环节的布局情况,识别优势领域与薄弱环节,为补链强链政策制定提供数据支撑;二是技术供应商寻源,赋能正在推进信创改造的大型政企客户、系统集成商精准识别匹配不同技术方向的软件开发商与解决方案提供商,降低采购调研成本,优化供应链稳定性;三是技术趋势与投资研究,支持行业研究机构、创投机构洞察国产数据库、人工智能平台、政务软件等细分赛道的市场格局、企业分布与技术发展动态,提升行业研究与投资决策的效率。
本次数据知识产权登记的完成,不仅意味着该数据集的权属得到官方确认,为后续的合规流通、授权使用扫清了权属障碍,也为国内垂直产业领域训练数据的合规化运营、知识产权登记提供了可参考的实践样本,对加快数据要素在产业数字化领域的落地应用具有积极意义。





_1769672084863.jpg)