当前我国工业数字化转型已进入深水区,大模型等AI技术在生产制造场景的落地,长期面临垂直领域标注语料稀缺、业务适配性不足的痛点。作为全国数据要素市场化配置改革先行试点省份,浙江省搭建的数据知识产权登记平台,承担着省内数据资源权属确认、流通合规校验、权益保护支撑的核心职能,是数据要素实现合规交易、市场化应用的核心基础设施。2026年4月25日,台州市路桥数字产业有限公司联合浙江保镖电子有限公司研发的生产质量问数垂类大模型语料数据,正式在该平台完成知识产权登记,为工业垂类大模型语料的合规流通、应用落地奠定了基础。
据了解,本次登记的语料产品专为训练工业企业设备运维垂类大语言模型构建,核心目标是让AI模型精准理解生产质量管理场景下的自然语言问题,自动转化为可执行的SQL查询语句,降低生产环节的数据调取与分析门槛。该语料完全依托制造企业真实经营数据构建标准化体系,训练后的模型可准确识别“产能”“产出率”“CPK值”“不良率”等工业质检特有专业术语,企业仅需将语料中的“指标名称”“问题查询”等字段与自身数据表结构适配,替换对应表名、字段名即可快速启用文字转SQL功能,大幅降低了企业的部署成本。
为保障语料的专业性与业务适配性,研发团队建立了全流程的质量管控体系:一是数据清洗与标准化,对从MES、SCADA等工业核心管理系统收集的原始问答对进行清洗,剔除重复、无效、逻辑矛盾的样本,同时特意保留“无匹配数据”类样本,强化模型对数据缺失等真实场景的适配能力;对所有问题表述的时间格式、指标名称、SQL语法风格进行统一规范,确保语料的一致性。二是问题分类与结构化,围绕设备运维核心场景将问题划分为趋势分析、阈值查询等多个类别,实现对生产质量管理高频需求的全覆盖。三是核心算法建模,通过语义解析与要素提取技术精准识别问题中的时间、指标、约束条件等核心要素,基于预设的映射规则自动生成标准化SQL语句,同时通过IsolationForest等算法完成逻辑异常检测、异常值识别,最后由资深设备运维人员对“问题-SQL-结果”三元组进行业务核验,确保语料既符合语法规范,又匹配工业现场实际业务逻辑。四是语料库持续迭代,建立“应用-反馈-优化”的闭环机制,定期将新的业务问题与验证后的SQL语句注入语料库,同时结合模型实际应用中的错误反馈针对性补充语料,持续提升覆盖度与准确性。
作为工业生产领域稀缺的高质量垂直语料,该产品可为工业企业、AI研发机构提供核心的训练与评测数据集,支撑生产质量管理领域自然语言处理技术的研发落地,典型应用场景包括:生产管理自助查询,车间管理人员无需掌握SQL技能,即可通过自然语言快速调取产能、不良率等核心生产指标,无需依赖IT部门支持,大幅提升决策效率;工业设备智能运维,可实现设备运行数据的快速查询分析,辅助运维人员开展故障预判、能耗优化、运维策略调整;垂类大模型研发,降低工业大模型的训练成本,缩短研发周期,推动AI技术在生产制造场景的规模化落地。本次知识产权登记的完成,也明确了该语料数据的权属,为后续的市场化流通、权益保护提供了合规依据,对推动工业数据价值释放、数据要素市场建设具有重要的示范意义。





_1769672084863.jpg)