近年来,随着数据要素市场化配置改革持续深化,数据知识产权确权已成为破解数据资产权属模糊、流通不畅、维权难等痛点的核心前提,也是各类市场主体盘活数据资产、释放数据价值的必要环节。作为国内率先开展数据知识产权制度创新的省级平台,浙江省数据知识产权登记平台承担着数据权属存证、流通溯源、权益保护等公共职能,为市场主体的数据资产化提供官方公信力支撑,是浙江数据要素市场建设的核心基础设施之一。
2026年5月29日,火石创造科技有限公司申报的“数据服务产业链结构文本训练数据”正式在该平台完成登记,为面向产业分析场景的训练数据类知识产权合规化提供了典型实践样本。据介绍,该数据集核心定位是为数据服务产业链智能分类与产业图谱构建模型的训练与开发提供专业语料,从原始数据处理、规则制定到成品输出全流程均遵循严格的合规要求与专业标准。
在数据加工前,所有原始数据已完成全量匿名化与去标识化处理,原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》等法律法规要求,为后续模型训练提供了洁净、可靠的输入基础。
数据处理环节严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了完整的标准化加工流程:首先是分类体系搭建,参考国家数字经济及其核心产业统计分类标准,预先构建了覆盖“数据服务”一级节点、“数据应用服务层/数据流通服务层”二级节点、“公共服务/产业经济/生活消费/数据金融”等三级节点、“政务数据应用/工业数据应用/数据银行/数字资产”等四级节点的树状分类体系,解决了当前数据服务产业分类口径不统一、跨场景复用难度大的行业共性问题;其次是业务匹配,采用“自动化规则匹配+人工校验”的双重机制,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的数据服务产业语义规则库自动推荐初步分类节点后,由具备数字经济领域专业背景的标注专家进行审核判定,兼顾了加工效率与分类准确率;最后是特征抽取,从企业简介文本中系统性抽取代表核心产品与技术的关键术语,经去重、标准化后形成“正向词”特征串,作为分类标签的语义补充,进一步提升数据的应用价值。
加工完成后的数据集为标准化的“文本-标签”结构化数据,每条数据均包含脱敏后的企业描述文本、经人工校验的四级分类标签、技术特征词与产业标签,全面覆盖政务、工业、能源、医疗、生活消费类数据应用服务,以及数据金融、数字资产类数据流通服务等核心领域,可直接用于数据服务产业链分析、技术供应商智能分类、应用场景关联挖掘等多类模型的训练与评估。
从应用价值来看,该数据集训练形成的算法模型可在三大核心场景释放价值:一是产业生态分析与政策制定,可辅助政府部门与产业研究机构快速摸清区域内不同数据服务领域的产业布局与企业分布,为数字产业扶持政策制定、产业招商、数字经济集聚区建设提供数据支撑;二是技术供应商寻源与评估,可赋能大型企业、政府机构、系统集成商精准匹配智慧城市、工业互联网、能源管理、数据金融等细分场景的专业数据服务商,大幅降低技术采购的筛选成本,提升供需匹配效率;三是投资赛道与竞争格局研判,可支持投资机构、行业分析师对大数据、云计算、区块链、AI算法等不同技术路线的商业化进展、市场集中度、头部企业布局进行量化跟踪,为数据要素赛道的投资决策提供参考依据。
本次数据知识产权登记的完成,不仅为该数据集后续的合规流通、授权使用、权益维护提供了官方存证依据,也为国内训练数据类数据资产的知识产权确权、价值评估提供了可复制的实践路径,对推动数据要素市场规范化发展、加速数字经济核心产业的数字化分析能力落地具有重要的行业示范意义。
首页 / 数据知识产权登记 / 正文
浙江完成数据服务产业链结构文本训练数据知识产权登记 覆盖产业图谱等多类应用场景
五号数据雷达数据知识产权登记2026-05-30 04:442
2026年5月29日,火石创造科技有限公司旗下数据服务产业链结构文本训练数据正式在浙江省数据知识产权登记平台完成确权登记,该合规专业的训练数据集可支撑产业链智能分类、数字经济产业图谱构建等模型开发,为数据服务产业数字化分析提供核心工具。

社区讨论
近期热门




_1769672084863.jpg)