当前我国数据要素市场化配置改革进入深化落地阶段,数据知识产权登记作为明确数据权益归属、保障数据合规流通、激活数据资产价值的核心前置程序,已成为各地推进数字经济发展的核心基础设施布局方向。作为全国首批数据要素市场化配置改革试点省份,浙江省搭建的省级数据知识产权登记平台,面向各类市场主体提供统一的登记存证、公示查询、权益证明等公共服务,其出具的登记证明可作为数据资产确权、交易流通、权益维护的官方公信力依据。2026年5月29日,火石创造科技有限公司旗下的网络与通信产业链结构文本训练数据正式在该平台完成知识产权登记,成为通信产业垂直领域少数完成官方合规确权的专业AI训练数据集。
本次登记的数据集是专门面向网络与通信产业链智能分析场景打造的AI模型训练语料,核心服务于产业链智能分类、产业图谱构建等模型的训练与开发,通过关联企业文本与核心技术标签,为通信产业全链路的数字化治理提供标准化数据工具。为保障数据合规性,加工前的原始数据已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》等法律法规要求,为后续模型训练及落地应用提供了洁净、可靠的输入基础。
本次数据集的处理严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了覆盖分类框架搭建到标签生成的全流程标准化处理体系:首先依托通信产业专业分类及新一代信息技术产业划分标准,构建了从一级节点“网络与通信”,到二级节点“网络设备”“核心元器件与芯片”“网络基础设施”“网络技术与软件”,再到“通信系统设备”“卫星互联网”“边缘计算”等三级(部分含四级)节点的树状分类体系,为数据加工提供了符合产业实际的逻辑框架。其次采用“自动化规则匹配+人工校验”的双层处理策略:先依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的网络与通信产业语义规则库自动推荐初步分类节点,再由具备通信与信息技术专业背景的标注专家进行最终审核判定,确保企业分类与产业链环节的匹配精准度。最后同步完成特征抽取,从企业简介文本中系统性抽取代表核心产品与技术的关键术语,经去重、标准化后形成“正向词”特征串,作为分类标签的语义补充。
最终输出的数据集为结构化的“文本-标签”配对数据,每条数据均包含脱敏后的企业描述文本、经人工校验的一至四级完整分类标签、细化的业务与技术特征词及产业标签,全面覆盖网络与通信产业核心元器件、网络设备、基础设施、前沿技术应用等全链路关键领域,是可直接用于产业链分析、核心技术企业识别、技术趋势跟踪等模型训练与评估的高质量专用数据集。
目前该数据集可广泛应用于三大核心产业场景:一是核心技术链分析场景,可辅助地方政府、产业规划部门绘制通信芯片、滤波器、光模块等核心元器件,以及卫星互联网、边缘计算等前沿技术领域的企业分布地图,精准识别关键技术环节的国产化能力与创新资源集聚情况,为产业强链补链、招商引智提供数据支撑;二是供应链与合作伙伴寻源场景,可赋能通信设备制造商、系统集成商、电信运营商等市场主体,精准匹配上游元器件供应商、网络设备供应商及下游技术服务商,优化供应链布局,提升供应链韧性;三是技术趋势与投资决策场景,可支持投资机构、行业研究团队分析5G、卫星互联网、边缘计算、物联网等不同技术路线的市场竞争格局、企业研发重点与产业化进程,降低信息差,为技术投资与赛道选择提供决策依据。本次数据知识产权登记的完成,一方面为该数据集后续的合规流通、授权使用、权益保护提供了官方公信力证明,另一方面也为垂直产业类AI训练数据的确权、登记、流通提供了可参考的实践样本,对于推进数据要素市场规范化建设、赋能通信产业数字化转型具有积极的示范意义。





_1769672084863.jpg)