在数据要素市场化建设持续推进、光伏产业数字化需求快速攀升的背景下,2026年5月29日,火石创造科技有限公司旗下的光伏产业链结构文本训练数据,正式在浙江省数据知识产权登记平台完成数据知识产权登记。作为国内较早落地的省级数据知识产权确权服务载体,浙江省数据知识产权登记平台承担着数据权属存证、流通合规校验、权益保障支撑等核心职能,本次登记的完成也意味着该数据集具备了官方认可的知识产权归属证明,为后续的合规流通、交易、应用及权益维权提供了基础依据。
当前光伏产业已成为我国落实双碳目标、培育新质生产力的核心战略性新兴赛道,随着全产业链市场主体规模快速扩容,政府部门的产业规划与精准招商、光伏企业的供应链管理与采购决策、投资机构的赛道研判与风险评估等场景,对产业链精准化、动态化分析的需求持续增长。而高质量的结构化训练数据,正是开发产业链智能分析、企业分类、图谱构建等AI应用的核心基础,本次完成登记的数据集正是瞄准这一行业需求打造的专用训练语料。
据介绍,该数据集在加工前已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆规范标识符,所有个人及商业敏感信息被彻底移除,完全符合隐私保护与数据安全合规要求,为模型训练提供了洁净、可靠的输入基础。在数据加工环节,团队严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了标准化的处理流程:首先依据国家《战略性新兴产业分类》及光伏行业专业分工,搭建了覆盖一级分类(光伏产业)、二级分类(光伏材料、光伏部件、光伏电池与组件、光伏设备、光伏发电系统)、三级分类(多晶硅、光伏支架、光伏逆变器、集中式光伏电站等具体产品与技术类型)的三级树状分类体系,为数据标注提供了清晰的产业逻辑框架;其次采用“自动化规则匹配+人工校验”的策略,依托Spark大数据处理框架完成海量企业简介文本的分布式清洗、分词与关键词匹配,通过预构建的光伏产业语义规则库自动推荐初步分类节点,再由具备光伏行业专业背景的标注专家逐一审核判定,确保企业分类的精准度;最后同步从企业文本中抽取核心产品、核心技术、企业资质等关键术语,经去重、标准化处理后形成“正向词”特征串与产业标签,作为分类标签的语义补充。
加工完成后的数据集由结构化的“文本-标签”对组成,每条数据均包含脱敏后的企业描述文本、经人工校验的一至三级分类标签、细化业务特征词与产业标签,全面覆盖光伏产业链上游材料、中游部件与设备、下游电池组件及电站系统等全部核心环节,可直接用于光伏产业链分析、供应商智能分类、技术路线跟踪、电站项目评估等多类AI模型的训练与评估。从典型应用场景来看,该数据集可辅助政府及产业园区绘制光伏产业链各环节企业分布地图,识别区域在硅材料、电池组件、逆变器、电站开发等领域的集聚程度与链条完整性,为精准招商、产业政策制定提供数据支撑;可赋能电站开发商精准识别匹配光伏支架、逆变器、电缆、接线盒等关键部件的优质供应商,优化供应链管理效率、降低采购成本;还可支持投资机构与行业研究团队对不同技术路线的研发企业分布、市场集中度、竞争格局进行量化分析与动态跟踪,提升研判的准确性与时效性。
业内人士指出,本次光伏产业链结构文本训练数据完成知识产权登记,不仅填补了国内光伏领域专用训练数据确权的空白,也为垂直产业类训练数据的合规治理、流通交易提供了可参考的样本,对丰富数据要素市场的垂直行业数据供给、支撑光伏产业数字化转型与高质量发展具有积极意义。
首页 / 数据知识产权登记 / 正文
浙江完成光伏产业链结构文本训练数据知识产权登记 覆盖全环节支撑多场景产业数字化应用
五号数据雷达数据知识产权登记2026-05-30 09:0113
2026年5月29日,火石创造科技有限公司旗下光伏产业链结构文本训练数据正式在浙江省数据知识产权登记平台完成知识产权登记,该数据集为光伏产业链智能分析专用AI训练语料,可支撑产业规划、供应链管理、投资研判等多领域数字化应用。

社区讨论
近期热门




_1769672084863.jpg)