five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 数据知识产权登记 / 正文

火石创造数商产业链结构文本训练数据完成浙江登记 赋能数据要素产业全场景分析

五号数据雷达数据知识产权登记2026-05-30 07:575
2026年5月29日,火石创造科技有限公司自研的数商产业链结构文本训练数据正式在浙江省数据知识产权登记平台完成知识产权登记,该合规数据集可广泛应用于数商分类监测、产业图谱构建、政策标准制定等领域,为数据要素市场建设提供高质量AI训练数据支撑。

当前我国数据要素市场化配置改革进入深化落地阶段,数商作为覆盖数据采集、加工、流通、应用、安全全生命周期的核心市场主体,其产业规模、结构布局与发展质量已成为衡量区域数字经济核心竞争力的关键指标。作为浙江省推进数据要素改革的核心基础设施之一,浙江省数据知识产权登记平台承担着数据知识产权存证、确权登记、合规公示、维权支撑等核心职能,是数据资产实现合规流通、价值变现的重要前置入口,对规范数据资产登记流程、保障数据要素市场有序运行具有核心作用。
2026年5月29日,火石创造科技有限公司旗下的数商产业链结构文本训练数据正式在该平台完成数据知识产权登记。作为专门面向数商产业链分析场景打造的专用AI训练数据集,该资产主要服务于数商产业链智能分类与产业图谱构建模型的训练与开发,通过关联企业文本信息与数据服务分类标签,为数字经济发展分析提供标准化的数据支撑工具,其典型应用场景覆盖三大核心领域:
一是产业分类与监测:可辅助政府部门与研究机构对数据资源化、资产化、价值化及产业保障等不同环节的数商主体进行精准分类与动态监测,快速掌握区域数据要素市场的主体结构、发展态势与短板环节,为产业扶持政策的精准落地提供依据。二是投资与生态合作:可帮助投资机构、数据交易平台快速识别数据采集、处理、分析、安全等各细分领域的优质服务商,挖掘潜在投资标的与生态合作伙伴,提升数商产业的资源对接效率。三是政策制定与标准研究:可支持监管部门、行业协会分析数据安全、数据资产化等重点细分领域的企业分布与技术水平,为数据要素市场相关管理政策、行业标准的制定提供客观的数据参考。
本次登记的数据集在加工前已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》等法律法规要求,为模型训练提供了洁净、合规的输入基础。
在数据加工环节,该数据集严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了完整的标准化加工流程:1.首先,参考国家关于数据要素市场及数字经济的官方分类体系,结合数据服务产业的专业分工,预先定义了以“数商”为一级节点,按数据要素生命周期和产业支撑划分为“数据资源化”“数据资产化”“数据价值化”“数商产业保障”等二级节点,进一步细分为“数据基础设施”“数据分类分级”“数据应用”“数据安全”等三级节点及“IDC服务”“数据分析和挖掘”“互联网大数据”“综合型数据安全服务”等具体业务方向(四级节点)的树状分类体系,为数据加工提供了结构化、专业化的框架。2.业务匹配:采用“自动化规则匹配与人工校验相结合”的策略:依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的数商产业语义规则库自动计算并推荐初步分类节点,再由具备数字经济产业专业背景的标注专家进行审核与最终判定,确保企业归入最贴切的产业链节点。3.特征抽取:在完成业务匹配的同时,从企业简介文本中系统性抽取代表其核心产品与技术的关键术语与名词性短语,经过去重与标准化格式化后组合成“正向词”特征串,作为对分类标签的语义补充。
加工完成后的数据集为一条条结构化的“文本-标签”数据,每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整分类标签(一至四级节点)、高度细化的业务特征词(正向词)与产业标签,全面覆盖数据采集、处理、分析、应用、安全等数商产业链核心环节,是一套分类体系专业、业务特征鲜明、可直接用于数商产业分析、服务商智能分类与数据要素市场图谱构建等模型训练与评估的高质量专用数据集。
本次数据知识产权登记不仅明确了该数据集的知识产权归属,为后续的授权使用、流通交易筑牢了合规基础,也为垂直领域AI训练数据的合规登记、价值评估提供了可复制的实践样本,对丰富数据要素市场的合规资产供给、推动数商产业数字化治理具有积极的行业意义。

查看数商产业链结构文本训练数据

登记内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们