当前,算力已经成为支撑数字经济发展的核心生产力,随着东数西算、全国一体化算力网络等国家级工程的持续推进,我国算力产业规模快速扩张,产业链上下游的资源匹配、规划决策、竞争力评估等场景对结构化、标准化的产业数据需求持续攀升。作为数据要素市场化配置的核心基础环节,数据知识产权登记是确认数据权属、保障数据合法流通、释放数据价值的重要制度安排,浙江省数据知识产权登记平台作为省级官方登记载体,承担着数据合规校验、权属公示、流通溯源等核心职能,为各类数据资产的市场化应用提供合规背书。
2026年5月22日,火石创造科技有限公司旗下的算力产业链结构文本训练数据正式在浙江省数据知识产权登记平台完成知识产权登记。该数据集专为算力产业链智能分类与产业图谱构建模型的训练与开发打造,通过关联企业文本与算力环节标签,为数字基础设施建设、算力产业治理提供标准化的数据工具,目前可落地应用于三大核心场景:
一是芯片选型与供应链寻源:可赋能云计算厂商、服务器制造商或系统集成商,精准识别与匹配AI芯片、GPU、MCU等各类计算芯片的研发制造企业,优化上游供应链决策;
二是算力基础设施规划与投资:可辅助政府与投资机构,分析区域在智算中心、数据中心、边缘计算节点等算力基础设施的分布格局与供给能力,为算力网络规划与投资决策提供依据;
三是算力服务商能力评估:可支持企业用户或研究机构,对云计算服务商、算力租赁平台、IDC运营商的业务能力、技术路线与市场竞争力进行量化分析与横向对比。
为保障数据的合规性与可用性,该数据集在生产全流程均设置了严格的合规与质量管控机制。加工前,所有原始数据已完成严格的匿名化与去标识化处理,原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合隐私保护与数据安全相关法规要求,为模型训练提供洁净、可靠的输入基础。
数据加工环节严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了完整的标准化处理流程:首先依据算力产业专业分类,预先构建了以“算力”为一级节点,向下划分为“芯片及软硬件”“算力服务”“算力中心”3个二级节点,进一步细化为“计算芯片”“存储器”“算力软件”“云计算”“边缘计算”“算力租赁”“数据中心”等具体业务类型的三级树状分类体系,为数据加工提供清晰的产业逻辑框架;其次采用“自动化规则匹配与人工校验相结合”的策略,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过涵盖“芯片设计”“GPU”“AI训练”“IDC”等术语的预构建算力产业语义规则库自动计算推荐初步分类节点,再由具备ICT行业专业背景的标注专家进行审核判定,确保企业被精准归入对应算力产业链环节;最后在完成业务匹配的同时,从企业简介文本中系统性抽取代表其核心产品与技术的关键术语,经过去重与标准化格式化后组合成“正向词”特征串,作为分类标签的语义补充。
最终加工完成的数据集由一条条结构化的“文本-标签”数据组成,每条数据均包含脱敏后的企业描述文本,以及经人工校验的一至三级完整分类标签、细化业务特征词与产业标签,内容全面覆盖算力产业链上游芯片与软件研发、中游各类算力服务、下游数据中心基础设施等核心环节,是分类体系专业、业务特征鲜明、可直接用于算力产业链分析、芯片企业识别、算力服务商评估等模型训练与评估的高质量专用数据集。查看算力产业链结构文本训练数据
登记内容:
业内人士指出,本次算力产业链结构文本训练数据完成知识产权登记,是垂直产业专用训练数据合规化流通的典型实践,既为算力产业相关AI应用的开发解决了训练数据的合规性痛点,也为国内数据要素市场中垂直领域数据集的权属确认、价值挖掘、流通交易提供了可复制的参考样本,对于加速数据要素向实体经济赋能、推动算力产业高质量发展具有积极的探索意义。





_1769672084863.jpg)