近年来新能源汽车、储能产业的爆发式增长,带动锂电池材料产业链成为各地产业布局的核心赛道,产业链各环节对精细化产业分析、供应链安全管理、技术趋势研判的需求持续攀升,而AI大模型在垂直产业分析领域的落地,高度依赖合规、标注精准的细分领域训练数据。作为浙江省推进数据要素市场化配置改革的重要基础设施,浙江省数据知识产权登记平台主要为市场主体提供数据知识产权的登记存证、权益公示、流通赋能等服务,是破解数据资产确权难、流通难痛点的核心公共服务载体。
2026年5月29日,火石创造科技有限公司旗下锂电池材料产业链结构文本训练数据正式在该平台完成知识产权登记,成为新能源产业领域训练类数据资产合规确权的典型实践。该数据集定位为锂电池新材料产业链智能分类与产业图谱构建模型的专用训练语料,通过关联企业文本与材料类型标签,为新能源材料产业发展提供标准化数据工具。
为保障数据合规性,该数据集在加工前已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》等相关法律法规要求,为后续模型训练提供了洁净、可靠的输入基础。
在数据加工环节,团队严格遵循“体系先行、业务匹配、特征抽取”的核心逻辑,形成了一套标准化的处理流程:首先依据国家战略性新兴产业分类及锂电池材料行业标准,预先搭建了从“化工材料”一级节点到“锂电池材料”五级节点的树状分类体系,为数据标注提供了专业、精细的产业层级框架;其次采用“自动化规则匹配+人工校验”的双重策略,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的锂电池材料产业语义规则库自动推荐初步分类节点,再由具备新能源材料行业专业背景的标注专家进行审核判定,确保企业被精准归入对应细分技术领域;最后同步完成特征抽取,从企业简介文本中系统性抽取核心产品、技术、应用方向等关键术语,经去重、标准化后形成“正向词”特征串与多维度产业标签,作为分类标签的精细化语义补充。
最终形成的结构化“文本-标签”数据集,每条数据均包含脱敏后的企业描述文本、经人工校验的五级分类标签、精细化产品技术特征词与多维度产业标签,全面覆盖锂电池正极材料、负极材料、电解液、隔膜、石墨烯及配套添加剂等全核心材料领域,是目前国内少数分类体系专业、特征标注精准、可直接用于锂电池产业链分析类AI模型训练与评估的高质量专用数据集。
该数据集的落地应用,将为新能源产业多类主体提供数字化工具支撑:在产业链全景与投资分析场景中,可辅助政府、产业园区及投资机构绘制锂电池各细分领域的企业分布图,精准识别技术热点与产业链短板,为地方招商引资、产业布局优化及资本精准布局提供决策依据,解决当前新能源产业招商同质化、产业链缺口识别难等行业痛点;在供应链寻源与技术合作场景中,可赋能电池制造商、整车企业快速筛选上游关键材料的潜在供应商与技术合作伙伴,提升供应链韧性与创新协同效率,应对近年来全球新能源供应链波动带来的安全风险;在技术趋势与竞争格局研究场景中,可支持行业研究机构、咨询公司量化分析不同技术路线的研发活跃度、企业集中度及市场渗透趋势,为行业研判提供数据支撑。
本次登记的完成也为垂直领域训练类数据资产的合规流通提供了参考样本,不仅意味着该数据集的合规性得到官方认可,也将进一步推动新能源产业数据要素的价值释放,助力数据要素市场在垂直产业领域的落地实践。





_1769672084863.jpg)