当前,数据要素市场化配置改革进入深水区,数据知识产权登记作为数据确权、资产化、流通交易的核心前置环节,已成为各地数字经济建设的重点布局方向。作为浙江省推进数据要素制度创新的核心基础设施,浙江省数据知识产权登记平台承担着数据知识产权的存证、登记、公示、查询等公共服务职能,为各类市场主体的数据资产合规化、资产化提供官方公信力背书。2026年5月27日,火石创造科技有限公司申报的大数据产业链结构文本训练数据正式在该平台完成登记,成为国内产业分析领域少数完成官方知识产权存证的AI训练数据集之一。
据了解,本次登记的数据集专门面向大数据产业链智能分类与产业图谱构建模型的训练与开发场景打造,通过精准关联企业文本与硬件设备标签,可为数字基础设施建设分析、产业链研究等提供核心数据支撑。在正式加工前,该数据集已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》等法律法规要求,为后续模型训练提供了洁净、合规的输入基础。
为保障数据标注的精准性与权威性,本次数据集的处理严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了全流程标准化的加工链路:首先对接国家战略性新兴产业与新一代信息技术产业分类标准,搭建了从“大数据”一级节点到“网络设备”四级节点的树状分类体系,实现对大数据基础设施核心组件的逻辑化、层级化覆盖;其次采用“自动化规则匹配+人工校验”的双层标注策略,先依托大数据处理框架对企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的涵盖“路由器”“交换机”“光通信”等词条的ICT产业语义规则库自动推荐初步分类节点,再由具备ICT行业研究经验的标注专家进行全文语境审核与最终判定,确保企业精准归入对应的产业链节点;最后同步从企业简介文本中抽取代表其核心产品、技术与服务的关键术语,经过去重与标准化格式化后形成“正向词”特征串,作为分类标签的细粒度语义补充,进一步提升数据集的模型训练效果。
加工完成的最终数据集为结构化的“文本-标签”对形式,每条数据均包含脱敏后的企业描述文本、经人工校验的四级分类标签与业务特征词,内容覆盖大数据基础支撑层网络设备领域从研发制造、销售到系统集成、技术服务的全链条市场主体,可直接用于大数据硬件产业链分析、供应商能力评估、市场地图绘制等模型的训练与评估。从应用场景来看,该数据集可支撑三大类核心需求:一是供应链寻源与生态合作,可赋能云计算服务商、数据中心运营商、大型系统集成商以及东数西算算力枢纽建设主体,精准识别与筛选网络设备供应商、技术服务商与集成伙伴,大幅优化ICT基础设施采购与建设效率;二是产业集聚与竞争力分析,可辅助地方政府、产业研究机构快速摸排特定区域在网络通信设备制造、销售与集成服务领域的产业集聚度、企业构成与链条完整性,为数字经济发展规划编制、产业链招商、补链强链政策制定提供客观决策依据;三是技术趋势与市场洞察,可支持投资机构、行业分析师对网络设备细分领域的研发动态、技术渗透率、市场竞争格局进行量化跟踪与前瞻性研判,降低行业研究的信息获取成本。
登记内容:
业内人士指出,本次大数据产业链结构文本训练数据完成知识产权登记,一方面明确了数据集的权属关系,为其后续的市场化流通、商业化应用扫清了合规障碍;另一方面也为国内垂直领域AI训练数据集的合规确权、存证登记提供了可参考的实践样本,对推动产业大数据领域的数据要素资产化、市场化发展具有积极的示范意义。





_1769672084863.jpg)