随着智能网联汽车产业进入规模化落地期,横跨电子、通信、汽车、软件等多个领域的产业链条日趋复杂,针对产业链分析的AI模型训练对标准化、合规化的专用语料数据需求持续攀升,同时在全国数据要素市场化建设的大背景下,训练类数据的知识产权确权也成为数据流通交易的核心前提。作为浙江推进数据要素确权、合规流通与价值释放的核心公共基础设施,浙江省数据知识产权登记平台此次登记的火石创造智能驾驶产业链结构文本训练数据集,主要面向智能驾驶产业链智能分类与产业图谱构建模型的训练开发需求,通过关联企业文本与核心技术环节标签,为产业全链路参与者提供标准化的数据工具支撑。
火石创造本次登记的数据集在加工前已完成严格的匿名化与去标识化处理,原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息均被彻底移除,完全符合隐私保护与数据安全合规要求,为模型训练提供了洁净、可靠的输入基础。
数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了一套从分类框架构建到最终标签生成的完整流程:首先依据智能驾驶技术架构与产业链分工,预先定义了以“智能驾驶”为一级节点,按技术模块划分为“感知系统”、“决策系统”、“执行系统”、“智能网联”四个二级节点,并进一步细分为“车载激光雷达”、“车载智能计算平台”、“线控制动”、“车载高精地图”等具体技术产品的三级节点树状分类体系,为数据加工提供了清晰的技术逻辑框架。其次采用“自动化规则匹配与人工校验相结合”的策略,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的智能驾驶产业语义规则库自动计算并推荐初步分类节点,再由具备汽车电子与智能驾驶专业背景的标注专家进行审核与最终判定,确保企业被精准归入对应的核心技术环节。最终同步完成特征抽取,从企业简介文本中系统性抽取代表其核心产品与技术的关键术语与名词性短语,经过去重与标准化格式化,组合成“正向词”特征串作为分类标签的语义补充。
加工后的数据集为一条条结构化的“文本-标签”数据,每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整三级分类标签、高度细化的核心技术特征词与产业标签,全面覆盖了智能驾驶感知、决策、执行、网联四大核心技术领域,是可直接用于智能驾驶产业链分析、核心技术企业识别与技术竞争格局研究等模型训练与评估的高质量专用数据集。
在产业端应用层面,该数据集首先可支撑核心技术企业识别需求:当前智能驾驶整车厂与一级供应商在供应链布局过程中,往往面临感知、决策、执行等细分技术环节供应商信息分散、技术能力难以精准判定的痛点,该数据集可辅助企业精准筛选激光雷达、域控制器、线控底盘等不同技术赛道的潜在合作伙伴,降低供应链调研成本,提升技术布局效率。针对投资与研究端,数据集可为投资机构、行业研究团队分析线控制动、高精地图、C-V2X等热门赛道的企业分布、技术实力与市场竞争态势提供标准化支撑,减少研究过程中的基础数据清洗与标注成本,为投资决策、行业研究报告输出提供可信的数据依据。面向政府与产业园区端,该数据集可辅助地方产业主管部门评估辖区内智能驾驶各核心技术环节的企业集聚程度与创新能力,精准识别产业短板,为智能驾驶产业规划、针对性招商引资、产业政策制定提供数据支撑。
此次数据知识产权登记的完成,一方面明确了该训练数据集的知识产权归属,为后续数据集的合规流通、商业化应用扫清了确权层面的障碍,另一方面也为AI产业训练类数据的规范化登记、价值化落地提供了可参考的实践样本,对推进数据要素在智能网联汽车等高端制造领域的深度应用具有典型示范意义。
首页 / 数据知识产权登记 / 正文
智能驾驶产业链结构文本训练数据完成浙江数据知识产权登记 覆盖四大核心技术领域多场景赋能产业
五号数据雷达数据知识产权登记2026-05-30 04:544
2026年5月29日,火石创造科技有限公司旗下智能驾驶产业链结构文本训练数据正式在浙江省数据知识产权登记平台完成知识产权登记,该合规结构化数据集可广泛应用于智能驾驶产业链分析、产业图谱构建等领域,为产业端、投资端、政府端的决策提供标准化数据支撑。

社区讨论
近期热门




_1769672084863.jpg)