在双碳战略持续推进的背景下,风电作为新能源核心赛道,近年来产业规模快速扩张,全产业链的数字化管理、协同、分析需求持续攀升,而高质量、合规化的专用训练数据,是AI技术落地风电产业场景的核心基础。作为国内省级数据要素市场化配置改革的重要基础设施,浙江省数据知识产权登记平台承担着数据资产确权、权益保障、合规流通支撑的核心职能,本次登记也是新能源产业专用数据集合规化的典型实践。
2026年5月26日,火石创造科技有限公司旗下风电产业链结构文本训练数据正式在该平台完成数据知识产权登记,该数据集专为风电产业链智能分类与产业图谱构建模型的训练与开发打造,通过关联企业文本与产业链环节标签,为风电产业发展与管理提供核心数据工具。
该数据集的加工全流程严格遵循合规性、专业性双重标准:加工前已完成严格的匿名化与去标识化处理,原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合隐私保护与数据安全合规要求,为模型训练提供了洁净、可靠的输入基础。
数据处理环节遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了标准化的加工流程:1. 分类体系构建:依据国家能源产业分类标准及风电行业专业划分,预先定义了以“风电”为一级节点,向下延伸至“风力发电站”“风电发电机组及零部件”“风电叶片材料”二级节点,“陆上/海上风力发电”“风机传动部件”“风电机身部件”“发电控制系统”“夹芯材料”等三级节点,及具体产品类型四级节点的树状分类体系,为数据加工提供专业逻辑框架;2. 业务匹配:采用“自动化规则匹配与人工校验相结合”的策略,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的风电产业语义规则库(涵盖“风电场运营”“风电叶片”“齿轮箱”等)自动推荐初步分类节点后,由具备能源装备、材料行业专业背景的标注专家完成审核判定,确保企业分类精准度;3. 特征抽取:在完成业务匹配的同时,从企业简介文本中系统性抽取核心产品、技术、服务相关的关键术语与名词性短语,经过去重、标准化格式化后形成“正向词”特征串与对应“产业标签”,作为分类标签的细粒度语义补充。
加工完成后的数据集为结构化“文本-标签”格式,每条数据均包含脱敏后的企业描述文本、经人工校验的一至四级完整分类标签、高度细化的业务特征词(正向词)与产业标签,全面覆盖风电产业上游材料、关键部件制造到下游电站开发运营的全链条,是一套分类体系专业、业务特征鲜明、可直接用于风电产业链全景分析、供应商智能识别、技术竞争力评估等模型训练与评估的高质量专用数据集。
从应用场景来看,该数据集可支撑多类产业端需求:在产业规划与投资决策场景,可辅助政府、园区及投资机构绘制覆盖风电场开发运营、叶片、齿轮箱、塔筒等关键部件制造的全国产业链地图,识别优势区域与薄弱环节,支撑产业规划制定与投资项目筛选;在供应链管理与供应商寻源场景,可赋能风电整机制造商、大型电站开发商精准识别评估上游零部件、材料、控制系统供应商,优化供应链布局与采购策略;此外还可支撑产业招商精准匹配、产业链风险预警、技术演进趋势分析等多个数字化应用场景。
本次数据知识产权登记的完成,既明确了该数据集的知识产权归属,为持有方的合法权益提供保障,也为后续该数据集的合规流通、市场化应用扫清了产权障碍,对于风电领域数据要素的合规化、资产化流转具有示范意义,也将为新能源产业的数字化转型提供高质量的数据底座支撑。
首页 / 数据知识产权登记 / 正文
浙江完成风电产业链结构文本训练数据知识产权登记 赋能全链条数字化分析应用
五号数据雷达数据知识产权登记2026-05-27 06:476
2026年5月26日,火石创造科技有限公司旗下风电产业链结构文本训练数据正式在浙江省数据知识产权登记平台完成登记,该数据集为风电领域专用AI训练语料,可支撑产业链分析、产业图谱构建、供应链优化等多场景应用,为新能源产业数字化提供合规数据底座。

社区讨论
近期热门




_1769672084863.jpg)