当前随着AI产业与数据要素市场的双向爆发,高质量训练数据作为AI模型的核心生产资料,其知识产权确权已成为数据资产合规流通、价值释放的核心前提。作为国内较早落地的省级数据知识产权登记服务载体,浙江省数据知识产权登记平台承担着数据资产存证、权益确认、流通支撑等核心职能,近年来持续推进垂直领域数据资产的确权实践,为全国数据要素市场规范化建设积累了大量可参考经验。2026年5月27日,国内产业数字化服务商火石创造旗下的边缘计算产业链结构文本训练数据,正式在该平台完成数据知识产权登记,成为国内少有的完成确权的垂直产业链专用训练数据集。
本次登记的数据集主要面向边缘计算产业链智能分类与产业图谱构建模型的训练与开发需求,通过关联企业文本与标准化产业标签,为“云-边-端”协同的产业分析场景提供核心数据支撑。在正式加工前,数据集已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被完全移除,完全符合《数据安全法》《个人信息保护法》等相关法律法规要求,为后续模型训练与数据应用筑牢了合规基础。
为保障分类的准确性与标注一致性,数据集处理严格遵循“体系先行、业务匹配、特征抽取”的核心流程:首先依托边缘计算产业“基础设施-服务平台-行业应用”的三层架构,搭建了覆盖一级到三级节点的树状分类体系,覆盖硬件、电信运营商、边缘云平台、行业应用等全产业链环节,确保分类逻辑的系统性与全面性;其次采用“自动化规则匹配+人工专家校验”的双层标注策略,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,再由具备产业研究背景的标注专家对系统推荐结果进行语境审核与逻辑判定,尤其对芯片设计、服务平台等易混淆分类进行严格区分,确保每家企业都被归入最匹配的产业链节点;最后同步从企业文本中抽取核心技术、产品服务相关的特征词,形成标准化的“正向词”特征串,为模型训练提供更细粒度的语义补充。
加工完成的数据集为结构化“文本-标签”格式,每条数据都包含脱敏后的企业描述文本、经人工校验的三级分类标签与业务特征词,全面覆盖AI芯片、智能硬件、电信服务、边缘云平台等边缘计算核心产业链环节,标注一致性高、特征维度明确,可直接用于边缘计算产业链图谱构建、企业智能分类等模型的训练与评估。
从落地价值来看,该数据集可覆盖三大核心应用场景:一是产业规划与生态构建,可辅助地方政府、产业园区精准识别区域内从底层芯片硬件到上层应用服务的完整产业链条,为产业布局、强链补链、招商引智提供量化决策依据;二是技术投资与赛道洞察,可为投资机构、产业研究单位提供标准化的企业分类标签,支撑对AI芯片、边缘云、5G专网等核心细分赛道的趋势研判与量化分析;三是供应链协同与方案集成,可赋能终端厂商、系统集成商智能匹配芯片供应商、硬件制造商与平台服务商,降低供需对接成本,推动“软硬件一体化”边缘计算解决方案的快速落地。
本次数据集完成登记的价值不止于单一数据资产的权益确认,更为垂直产业类训练数据的确权、流通提供了可复制的实践路径。当前国内训练数据供给多集中于通用大模型领域,面向特定产业分析场景的专用训练数据供给缺口较大,本次登记落地既填补了边缘计算产业链训练数据的合规供给空白,也进一步丰富了浙江省数据知识产权登记平台的垂直领域数据资产储备,对推动细分产业数据要素价值释放、助力数字经济高质量发展具有积极的示范意义。





_1769672084863.jpg)