火石创造科技有限公司本次登记的数据知识产权工业互联网产业链结构文本训练数据,本数据集服务于工业互联网产业智能分类与技术图谱构建模型的训练与开发,通过关联企业文本与核心技术栈标签,为工业数字化转型提供核心数据工具。其主要应用于:技术产业链分析:辅助政府及研究机构,系统梳理区域在工业互联网平台、网络、安全、数据等各层级的技术供给能力,绘制产业技术地图,识别优势环节与生态短板。技术选型与生态合作:赋能制造业企业或解决方案集成商,精准识别和匹配在边缘计算、数字孪生、工业大数据、工控安全等特定技术领域的供应商与服务商,支撑技术选型与生态构建。一、加工前数据说明 本数据集旨在构建用于工业互联网产业链智能分析的人工智能模型训练语料。在加工前,数据已进行严格的匿名化与去标识化处理。原始企业名称被统一替换为不可逆的规范标识符,并彻底移除所有的个人及商业敏感信息,确保数据完全符合隐私保护与安全合规要求,为模型训练提供了洁净、可靠的输入基础。 二、数据处理规则 数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了一套从分类框架构建到最终标签生成的完整流程:1.首先,依据国家工业互联网标准体系架构及行业共识,预先定义了以“工业互联网”为一级节点,以“网络层”、“平台层”、“安全层”为二级节点,并进一步细分为“标识解析体系”、“云平台”、“工业大数据”、“关键设备”、“设备/数据/网络安全”等三级节点及其具体技术领域(四级节点)的树状分类体系。该体系为数据加工提供了符合产业逻辑的、层级化的专业框架。2.业务匹配:采用“自动化规则匹配与人工校验相结合”的策略。首先,依托Spark大数据处理框架,对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的工业互联网产业语义规则库(涵盖“边缘计算”、“数字孪生”、“工业控制系统”、“标识解析”、“数据安全”等)自动计算并推荐初步分类节点。随后,由具备工业互联网及信息技术领域知识的标注专家进行全文语境审核与最终判定,确保企业被精准归入对应的技术层级与细分领域。3.特征抽取:在完成业务匹配的同时,从同一段企业简介文本中,系统性地抽取代表其核心技术、产品或解决方案的关键术语与名词性短语,经过去重与标准化格式化,组合成“正向词”特征串;同时,归纳其所属的宏观产业领域,生成“产业标签”,共同作为对分类标签的多维度、细粒度的语义补充。 三、加工后数据内容 加工后的数据集为一条条结构化的“文本-标签”数据。每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整分类标签(一至四级节点)、高度细化的技术特征词(正向词)与产业标签。数据内容全面覆盖了工业互联网的网络互联、平台服务、数据智能、信息安全等核心层级及其关键技术点,形成了一个分类体系专业、技术特征鲜明、可直接用于工业互联网产业分析、技术供应商智能识别与产业生态研究等模型训练与评估的高质量专用数据集。





_1769672084863.jpg)