作为新质生产力的核心赛道之一,第三代半导体产业是我国突破高端芯片领域卡脖子瓶颈、构建自主可控电子信息产业链的关键抓手,而高质量、合规化的产业数据则是支撑产业精准决策、AI应用落地的核心生产要素。作为全国首批数据要素市场化配置综合改革试点省份,浙江率先落地的数据知识产权登记平台承担着数据资产存证、权属确认、合规校验、流通赋能等公共服务职能,是国内数据要素产权制度落地的标杆性载体。2026年5月22日,火石创造科技有限公司旗下第三代半导体产业链结构文本训练数据正式在该平台完成知识产权登记,成为国内首个完成官方确权的第三代半导体垂直领域AI训练数据集。
本次登记的数据集核心定位为第三代半导体产业链智能分析的AI模型训练专用语料,主要服务于产业链上游智能分类、供应链图谱构建等模型的训练开发,可通过关联企业文本与材料设备标签,为核心环节国产化替代、产业生态分析提供标准化数据工具。为保障数据合规性,数据集在加工前已完成全量匿名化与去标识化处理,原始企业名称统一替换为不可逆规范标识符,所有个人及商业敏感信息已彻底移除,完全符合《数据安全法》《个人信息保护法》及产业数据流通的相关监管要求,从源头规避了训练数据的合规风险。
在数据加工环节,团队严格遵循“体系先行、业务匹配、特征抽取”的核心规则,构建了覆盖全流程的标准化处理体系:首先参考国家战略性新兴产业分类标准与全球半导体产业技术图谱,搭建了五级树状分类框架,从一级节点“第三代半导体”向下逐层拆解,最终细化到“衬底材料”“光刻设备”“封装设备”等垂直细分节点,为数据自动化处理提供了符合产业实际的结构化参照。随后采用“自动化规则匹配+行业专家人工校验”的双层处理策略:先依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过覆盖碳化硅衬底、溅射靶材等细分领域的半导体产业语义规则库自动推荐初步分类节点,再由具备半导体产业研究经验的标注专家进行全文语境审核与最终判定,确保每家企业的分类匹配产业实际需求。在分类的同时,团队还从企业文本中系统性抽取核心产品、材料、设备等关键术语,经标准化后形成“正向词”特征串与“产业标签”,作为多级分类标签的细粒度语义补充,进一步提升数据集的应用价值。
最终形成的数据集为结构化“文本-标签”格式,每条数据均包含脱敏后的企业描述文本、经人工校验的一至五级完整分类标签、产品技术特征词及产业标签,内容深度聚焦第三代半导体产业上游,全面覆盖衬底、靶材、化学品、光刻材料等核心原材料,以及晶体生长、光刻、切片、封装等关键制造设备,是目前国内分类体系完善、标注精度较高的第三代半导体产业链训练数据集之一。目前该数据集可应用于多类产业场景:在企业端,可支撑芯片设计公司、晶圆制造厂开展供应链精准寻源,快速匹配核心原材料与关键装备的潜在供应商,降低供应链断供风险;在政府与智库端,可辅助开展区域第三代半导体产业布局评估,精准识别产业短板与优势环节,为产业政策制定、招商策略优化提供量化依据;此外,数据集还可支撑金融机构开展半导体企业技术实力评估、投资机构进行赛道标的筛选、产业园区开展精准招引等多元场景,大幅降低各主体的产业数据处理成本。
登记内容:
业内人士指出,本次第三代半导体训练数据完成知识产权登记,是数据要素确权制度在高端制造垂直领域的典型落地实践,既解决了AI训练数据的权属不清、流通受限等痛点,也为半导体产业数字化提供了标准化的基础数据资产,对加快我国第三代半导体产业自主可控进程、推动数据要素与实体经济深度融合具有重要示范意义。





_1769672084863.jpg)