随着全国数据要素市场化配置改革步入深水区,数据知识产权登记作为数据资产确权、合规流通、价值增值的核心前置环节,已成为各地方推动数据要素落地实体产业的核心抓手。作为全国数据要素改革先行试点省份,浙江省打造的数据知识产权登记平台,承担着数据权属存证、合规核验、流通公信力背书等核心职能,是国内规范化程度最高、覆盖场景最广的省级数据登记基础设施之一。2026年5月27日,国内产业大数据服务商火石创造科技有限公司旗下的应用软件产业链结构文本训练数据,正式在该平台完成知识产权登记,成为国内为数不多的完成官方确权的产业垂直领域AI训练数据集。
本次完成登记的数据集,核心定位为应用软件产业链智能分类与产业图谱构建模型的专用训练语料,通过关联脱敏后的企业文本信息与标准化软件技术标签,为全链路软件产业分析提供核心数据支撑。目前该数据集可覆盖三类核心应用场景:一是软件供应商寻源与能力评估,可赋能大型企业、政府机构及系统集成商,精准识别云计算、大数据、人工智能平台、智能机器人等不同技术领域的软件开发商与服务商,有效降低技术采购的信息差,优化采购决策效率;二是产业布局与技术路线分析,可辅助政府及产业园区梳理区域在基础软件、新兴平台软件、行业应用软件等产业链环节的企业分布、技术积累与短板缺口,为产业招商、政策制定、园区规划提供量化依据;三是技术趋势与投资洞察,可支持投资机构与行业研究团队,对芯片设计、人工智能算法、工业互联网平台等细分技术领域的研发动态、市场竞争格局与商业化进展进行长期量化跟踪与前瞻性研判。
为符合数据安全合规要求,该数据集在加工前已完成全流程匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》及数据知识产权登记的相关合规要求,为后续模型训练提供了洁净、可靠的输入基础。
本次数据集的加工严格遵循“体系先行、业务匹配、特征抽取”的核心原则,形成了一套覆盖分类框架构建到标签生成的全流程标准化处理体系:首先是分类框架搭建,团队依据国家软件产业分类标准,结合当前技术发展趋势,预先定义了从“应用软件”一级节点出发,向下拆解为“软件研发”“软件应用”“IT基础”二级节点,进一步细分出“新兴平台软件”“业务场景”“终端设备”“基础硬件”等三级、四级节点的树状分类体系,既符合官方统计口径,又兼顾了大模型、工业软件等新兴赛道的划分需求,为数据加工提供了专业清晰的框架支撑。其次是业务匹配环节,采用“自动化规则匹配+人工校验”的双层策略:首先依托Spark大数据处理框架,对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的软件产业语义规则库自动计算推荐初步分类节点;随后由具备软件与信息技术行业专业背景的标注专家进行逐一审核判定,确保企业归入最贴合实际的技术领域与产业链环节,分类准确率远高于纯自动化处理的数据集。第三是特征抽取环节,在完成业务匹配的同时,从企业简介文本中系统性抽取代表其核心产品与技术的关键术语与名词性短语,经过去重、标准化格式化后组合成“正向词”特征串,作为分类标签的语义补充,进一步提升了数据集的颗粒度与可用性。
加工完成后的数据集为标准化的“文本-标签”结构化数据,每条数据均包含脱敏后的企业描述文本、经人工校验的一至四级完整分类标签、高度细化的业务特征词与产业标签,内容全面覆盖从基础硬件、平台软件到行业应用的应用软件产业链全核心环节,是国内少有的分类体系专业、业务特征鲜明、可直接用于AI模型训练与评估的高质量专用数据集,除上述核心应用场景外,还可支撑产业情报大模型训练、软件产业供需智能匹配、数字经济核心产业统计监测等多个延伸场景的落地。
登记内容:
业内人士指出,本次应用软件产业链训练数据的成功登记,是产业垂直类训练数据合规确权的典型实践,既为同类产业数据的知识产权登记、流通交易提供了可参考的标准化路径,也为软件产业数字化治理、数字经济核心产业的精准施策提供了可信的数据资产支撑,对推动数据要素在政企决策、产业研究、投资布局等实体领域的价值释放具有重要的示范意义。





_1769672084863.jpg)