当前,新能源汽车产业已成为数字经济与实体经济深度融合的核心赛道,插电混动力技术作为衔接燃油车与纯电车型的关键技术路线,产业链条长、细分零部件品类超千种,传统人工梳理模式存在效率低、更新滞后、标准化不足等痛点,高质量垂直领域训练数据已成为AI赋能产业分析的核心刚需。作为国内率先落地的数据知识产权公共服务载体,浙江省数据知识产权登记平台承担着数据资产权属存证、合规背书、流通支撑的核心职能,是当地推进数据要素市场化配置改革的重要基础设施。
2026年5月29日,火石创造科技有限公司旗下插电混动力汽车产业链结构文本训练数据正式在该平台完成知识产权登记,为汽车产业链智能分析模型的训练落地提供了合法、规范的数据来源。
据了解,本次登记的数据集专门服务于插电混动汽车产业链智能分类与供应链图谱构建,通过精准关联零部件企业文本与产业标签,为汽车产业分析提供核心数据工具,目前已明确三大核心应用方向:一是供应链梳理与精准招商,可辅助地方政府、产业园区快速绘制核心零部件产业地图,识别本地产业链的优势环节与短板缺口,为强链补链行动提供靶向招商依据;二是供应商寻源与风险管理,可赋能整车厂及一级供应商智能识别轮毂、车桥、汽车电子等各类潜在零部件供应商,优化供应链布局,提升应对供应链中断风险的响应效率;三是细分赛道投资研究,可为一级、二级市场投资机构提供标准化产业标签,支持对智能驾驶传感器、热管理系统、轻量化部件等热门细分赛道的竞争格局进行高效梳理分析。
为保障数据合规性,该数据集在加工前已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息均被彻底移除,完全符合数据安全、个人信息保护相关法律法规要求,为后续模型训练提供了洁净、可靠的输入基础。
在数据加工环节,研发团队严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了一套从分类框架构建到最终标签生成的全流程标准化处理机制:1. 体系构建:参考国家及行业汽车产业分类标准,预先定义了从“插电混动力汽车”(一级节点)到“上游:汽车零部件”(二级节点),并逐级细分为“通用/智能化零部件”(三级)、具体系统总成(四级)乃至具体部件(五级)的精细化树状分类体系,为全流程自动化处理提供了结构化逻辑框架;2. 业务匹配:采用“自动化规则匹配与人工校验相结合”的处理策略,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的、涵盖全品类零部件名称的语义规则库自动计算并推荐初步分类节点,再由具备汽车产业背景的标注专家对系统推荐结果进行全文语境审核与最终判定,确保每家企业被精准归入最贴切的零部件分类节点;3. 特征抽取:在完成业务匹配的同时,从企业简介文本中系统性抽取代表企业核心产品的关键术语、部件名称与技术参数,经过去重与标准化格式化后组合成“正向词”特征串,作为层级标签的细粒度语义补充,为AI模型提供更丰富的学习维度。
最终加工完成的数据集全部为结构化“文本-标签”格式,每条数据均包含脱敏处理后的原始企业描述文本,以及经人工校验的完整五级分类标签、产业标签与业务特征词,内容全面覆盖行驶、转向、车身、热管理、智能驾驶等插电混动力汽车核心系统及其上下游零部件,形成了分类体系清晰、层级深入、标注一致性高、特征明确的专用训练数据集,可直接用于汽车产业链深度图谱构建、供应商智能分类等模型的训练与评估。
登记内容:
业内人士指出,本次数据知识产权登记的完成,不仅为该数据集后续的商业化流通、授权使用提供了权属背书,也为国内垂直产业领域训练数据的合规确权、价值释放提供了可参考的落地样本,对推动汽车产业数字化转型、加快数据要素在实体经济领域的落地应用具有积极的示范意义。





_1769672084863.jpg)