随着全国数据要素市场化配置改革持续深化,数据知识产权登记作为明确数据权属、保障数据权益、打通合规流通链路的核心基础环节,正在各细分产业场景加速落地。作为全国数字经济创新发展试验区,浙江在公共数据与产业数据合规登记领域的探索始终走在全国前列,浙江省数据知识产权登记平台正是当地为规范数据产权管理、促进数据要素流通搭建的官方基础设施,可为登记主体提供权属存证、权益保护、流通对接等配套服务。2026年5月26日,火石创造科技有限公司旗下的新一代信息技术产业产业链结构文本训练数据,正式在该平台完成数据知识产权登记,成为产业类训练数据合规落地的典型案例。
当前AI大模型与产业智能应用落地过程中,训练数据的合规性、标注准确性直接决定了模型输出结果的可靠性与可用性,而产业链分析类数据集由于涉及大量市场主体经营信息,其合规门槛更高。火石创造本次登记的数据集,核心服务于新一代信息技术产业的智能分析与图谱构建,通过关联企业信息与产业标签,为各类产业数字化工作提供底层数据支撑。数据集加工前已完成全量匿名化与去标识化处理:原始企业名称被统一替换为不可逆规范标识符,企业简介中的具体地址、联系人等敏感信息全部被移除,从源头规避了隐私泄露风险,完全符合《数据安全法》《个人信息保护法》等相关法律法规要求,为后续模型训练提供了洁净、可靠的输入基础。
为适配新一代信息技术产业业态迭代快、边界模糊的行业特性,本次数据集的加工严格遵循“体系先行、业务匹配、特征抽取”的核心规则,搭建了一套兼顾科学性与灵活性的处理流程:首先是分类框架的搭建,以“新一代信息技术产业”为根节点,下设“新兴软件和新型信息技术服务”“人工智能”“下一代信息网络产业”“电子核心产业”“互联网与云计算、大数据服务”5个二级节点,进一步细化为“新兴软件开发”“人工智能软件开发”“网络设备制造”等数十个三级业态节点,覆盖了当前新一代信息技术产业的全部核心赛道,解决了过往产业分类滞后于业态创新的痛点。其次是业务匹配环节,采用“自动化规则匹配与人工校验相结合”的策略,依托Spark等大数据处理框架,对企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的含“软件开发”“人工智能”“系统集成”等关键词的新一代信息技术产业语义规则库,自动计算并推荐初步的分类节点,再由标注专家对系统推荐结果进行全文语境审核与最终判定,依据企业核心产品与服务确认最终分类,既保证了处理效率,也将标注准确率维持在较高水平。最后是特征抽取环节,在完成业务匹配的同时,从同一段企业简介文本中系统性抽取代表其核心技术能力、服务模式或竞争优势的关键术语,经过去重与标准化后组合成“正向词”特征串,作为分类标签的语义补充,为模型提供了更丰富的业务特征维度。
加工完成的数据集为标准化“文本-标签”结构,每条数据都包含脱敏后的企业描述文本、全层级分类标签、业务特征词三类核心信息,全面覆盖软件开发、人工智能、网络技术、电子核心等新一代信息技术产业核心领域,分类体系清晰、标注一致性较高、特征维度明确,可直接用于该产业的企业智能分类、生态图谱构建等模型的训练与评估。从应用场景来看,该数据集可支撑三大类核心产业需求:一是产业生态洞察,可辅助政府及园区运营方摸清区域内软件服务、人工智能、集成电路、工业互联网等关键领域的创新主体分布与协作关系,为产业规划、精准招商提供数据支撑;二是技术趋势研判,可为投资机构、研发平台分析人工智能软件开发、新型信息技术服务等热门赛道提供标准化企业画像与竞争格局参考,大幅降低赛道研究的人工成本;三是创新资源对接,可赋能科技园区或链主企业,智能匹配从基础软件开发、系统集成到数据服务的各类技术供应商,促进创新链与产业链深度融合。
本次数据集的成功登记,也为产业类训练数据的合规流通提供了可复制的参考路径:一方面通过官方登记明确了数据的权属,为后续的数据交易、授权使用提供了权益保障;另一方面也验证了“合规处理-标准化加工-官方登记-场景应用”的产业数据价值释放链路的可行性,对于加快新一代信息技术产业的数字化治理、推动数据要素在产业端的落地应用具有重要的示范意义。





_1769672084863.jpg)