当前,我国数据要素市场化配置改革进入纵深推进阶段,数据知识产权登记作为明确数据权属、保障数据资产权益、推动合规流通的核心前置环节,成为各行业数据要素价值释放的重要基础。作为全国数字经济创新发展试验区,浙江省搭建的数据知识产权登记平台承担着数据资产存证、权属公示、流转服务等公共职能,经其登记的数据资产可获得官方权属证明,为后续交易、授权、维权提供合规依据,是国内公信力领先的数据知识产权登记基础设施之一。
2026年5月22日,火石创造科技有限公司旗下集成电路产业链结构文本训练数据正式在该平台完成知识产权登记,为当前需求迫切的半导体产业数字化场景提供了合规、专业的训练数据供给。作为支撑集成电路产业链智能分类与产业图谱构建模型开发的专用训练语料,该数据集针对当前半导体产业分析领域长期存在的细分领域分类标准不统一、标注数据专业性不足、AI模型训练语料缺失等痛点打造,可广泛应用于多个产业数字化场景:面向政府及产业园区,可辅助绘制区域集成电路关键材料、核心设备领域的产业分布地图,精准识别薄弱环节与核心企业,为强链补链政策制定、产业招商提供数据支撑;面向芯片设计公司、晶圆厂、封测厂等市场主体,可实现上游材料及设备供应商的智能匹配,为供应链多元化布局、国产化替代推进、供应链风险预警提供决策支持;面向投资机构与研究团队,可支撑光刻材料、第三代半导体、CMP抛光材料等细分赛道的技术研发布局分析、市场竞争格局研判,为投资决策与行业研究提供量化工具,此外还可应用于产业运行监测、企业技术路径追踪等其他延伸场景。
为保障数据的合规性与专业性,该数据集在生产全流程建立了严格的标准规范:在加工前,所有原始数据已完成严格的匿名化与去标识化处理,原始企业名称统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》等相关法律法规要求,为模型训练提供了合规、可靠的输入基础。
在数据处理环节,团队严格遵循“体系先行、业务匹配、特征抽取”的核心规则,搭建了覆盖全产业链的标准分类框架:首先参考国家集成电路产业分类标准及半导体产业分工实际,建立了以“集成电路”为一级节点,向下拆分“集成电路材料”“集成电路设备”二级节点,延伸“制造材料”“封装材料”“制造设备”等三级节点,最终落地“光刻材料”“硅片”“清洗设备”等四级节点的树状分类体系,为数据标注提供清晰的产业逻辑支撑;其次采用“自动化规则匹配+人工校验”的标注策略,依托Spark大数据处理框架对海量企业文本进行分布式清洗、分词与关键词匹配,通过预构建的半导体产业语义规则库自动推荐初步分类结果,再由具备半导体行业专业背景的标注团队完成最终审核校验,确保分类精度;在分类的同时完成核心特征抽取,从企业文本中提取核心产品、技术相关的术语短语,经标准化处理后形成正向词特征串与产业标签,为分类结果提供语义补充。
最终加工形成的数据集为结构化“文本-标签”格式,每条数据包含脱敏后的企业描述文本、经人工校验的四级分类标签、业务特征词与产业标签,覆盖集成电路制造材料、封装材料、核心设备等全链条细分领域,是目前国内少数具备官方知识产权登记资质、可直接用于产业链分析、供应商智能识别等模型训练与评估的专用产业数据集。此次登记不仅明确了该数据集的权属边界,为后续的商用授权、流通交易扫清了合规障碍,也为专业产业类训练数据的确权登记提供了可复制的实践样本,助力半导体领域数据要素的合规流动,支撑我国集成电路产业的数字化治理与高质量发展。
首页 / 数据知识产权登记 / 正文
火石创造集成电路产业链训练数据完成浙江数据知识产权登记 赋能半导体全链路数字化分析
五号数据雷达数据知识产权登记2026-05-24 03:125
2026年5月22日,火石创造旗下集成电路产业链结构文本训练数据正式完成浙江省数据知识产权登记,该合规标注数据集可直接用于AI模型训练,为半导体产业强链补链研判、供应链风险评估、投资赛道分析等多场景提供专业数据支撑。

社区讨论
近期热门




_1769672084863.jpg)