当前我国数据要素市场正步入权属规范化、流通制度化的发展快车道,数据知识产权登记作为明确数据权益归属、保障数据合规流通的核心制度工具,已成为各地推进数据要素市场化配置改革的核心抓手。作为全国数字经济发展先行区,浙江省搭建的数据知识产权登记平台,承担着区域内数据资源确权存证、流通备案、权益保护等公共服务职能,为各类合规数据产品的市场化应用打通了权属通道。2026年5月22日,火石创造科技有限公司旗下的数字经济产业链结构文本训练数据正式在该平台完成知识产权登记,成为国内少数落地登记的数字经济产业垂直类训练数据集。
本次登记的数据集专为数字经济产业链智能分类、产业图谱构建等AI模型的训练与开发打造,通过关联企业文本与产业环节标签,为数字经济发展的全链路分析提供标准化的数据支撑。其典型应用场景覆盖三大核心领域:一是产业布局与政策制定,可辅助政府及产业规划部门摸清区域内数字产品制造业(如半导体、通信设备)与数字技术应用业(如软件服务、系统集成)的企业分布、产业链完整度与技术短板,为产业扶持政策制定、精准招商、产业链强链补链提供决策依据;二是供应链寻源与技术合作,可赋能整机制造商、系统集成商或大型科技企业精准识别上游核心零部件(如芯片、分立器件、电子元器件)供应商及下游技术服务商,优化供应链布局,构建更具韧性的技术合作网络;三是技术跟踪与投资决策,可支持投资机构与行业研究团队对集成电路设计、通信设备制造、信息技术服务等细分赛道的技术研发动态、市场竞争格局与企业成长潜力进行量化分析与研判,提升决策效率与准确性。
一、加工前数据说明
本数据集旨在构建用于数字经济产业链智能分析的人工智能模型训练语料。在加工前,数据已按照《数据安全法》《个人信息保护法》及数据知识产权登记的相关合规要求进行严格的匿名化与去标识化处理,原始企业名称被统一替换为不可逆的规范标识符,并彻底移除所有的个人及商业敏感信息,确保数据完全符合隐私保护与安全合规要求,为模型训练提供了洁净、可靠的输入基础。
二、数据处理规则
数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了一套从分类框架构建到最终标签生成的完整流程:1.首先,依据国家统计局《数字经济及其核心产业统计分类(2021)》及信息技术产业专业分类标准,预先定义了以“数字经济”为一级节点,以“数字产业化”为二级节点,并向下细分至“数字产品制造业”、“数字技术应用业”(三级节点)及其具体产品与技术类型(如“通讯及雷达设备制造”、“半导体器件制造”、“信息技术服务”等四级、五级节点)的树状分类体系,为数据加工提供了清晰的产业逻辑框架。2.业务匹配:采用“自动化规则匹配与人工校验相结合”的策略。首先,依托Spark大数据处理框架,对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的数字经济产业语义规则库自动计算并推荐初步分类节点。随后,由具备信息产业研究经验的标注专家进行审核与最终判定,确保企业被精准归入对应的产业链环节与技术领域。3.特征抽取:在完成业务匹配的同时,从同一段企业简介文本中,系统性地抽取代表其核心产品与技术的关键术语与名词性短语,经过去重与标准化格式化,组合成“正向词”特征串,作为对分类标签的语义补充。
三、加工后数据内容
加工后的数据集为一条条结构化的“文本-标签”数据。每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整分类标签(一至五级节点)、高度细化的业务特征词(正向词)与产业标签。数据内容全面覆盖了数字产业化核心领域,包括计算机通信设备制造、半导体器件制造、集成电路设计、软件与信息技术服务等关键环节,形成了一个分类体系专业、业务特征鲜明、可直接用于数字经济产业链分析、核心企业识别、技术趋势研究等模型训练与评估的高质量专用数据集,填补了国内数字经济产业链垂直领域标注训练语料的供给空白。本次登记也为国内产业类训练数据的合规化流通提供了可参考的实践样本,对推动数据要素在产业治理、数字化转型领域的落地应用具有重要的示范意义。
首页 / 数据知识产权登记 / 正文
浙江落地数字经济产业链训练数据知识产权登记 可支撑产业分类、图谱构建等多场景AI训练
五号数据雷达数据知识产权登记2026-05-24 08:008
2026年5月22日,产业大数据服务商火石创造旗下的数字经济产业链结构文本训练数据,正式完成浙江省数据知识产权登记平台权属登记。该数据集为数字经济领域垂直AI模型训练提供了合规、高质量的标注语料,可广泛应用于产业规划、供应链优化、科创投资等多个核心场景。

社区讨论
近期热门




_1769672084863.jpg)