随着工业数字化转型加速,垂直领域大模型训练的高质量语料缺口持续扩大,数据知识产权合规登记已成为数据要素市场化流通的核心前提。2026年4月21日,台州市路桥数字产业有限公司与浙江金龙电机股份有限公司联合打造的电机类设备维修问数垂类大模型语料数据,正式在浙江省数据知识产权登记平台完成知识产权登记,为电机生产领域智能运维落地提供了合规可用的核心数据支撑。
本次登记的语料数据专为训练电机生产类企业设备维修垂类大语言模型构建,核心目标是让模型能够深度理解企业生产设备维修场景中的自然语言问题,精准转化为可执行的SQL查询语句,实现电机生产设备维修数据的即时、高效查询与分析。该语料依托企业真实经营数据构建标准化体系,经训练后的模型可精准识别“镗床设备”“配件老化”等电机生产维修场景的特有需求,电机生产企业可基于语料中的“指标名称”“问题查询”等分类字段,适配自身数据表结构(如替换建表语句中的表名、字段名),快速启用文字转SQL功能复用。作为稀缺的工业垂直领域高质量语料,该数据可为电机生产企业的自然语言处理技术研发、模型训练与评测提供核心支撑,对挖掘电机企业售后数据价值、推动智能运维技术发展具有重要意义。
该语料库的搭建严格遵循标准化生产流程,核心环节包括:
1.数据清洗与标准化:
对从设备管理系统(如EMS)和钉钉设备管理系统中收集的原始问答对进行清洗,剔除重复、无效或存在明显逻辑矛盾的样本,其中“结果输出”为“无匹配数据”的样本作为查询无返回结果的标准语料保留,增强模型对数据缺失场景的理解能力;同时统一问题表述中的时间格式、指标名称和SQL语法风格,格式化建表语句,统一字段类型和注释风格,保障语料的规范性。
2.问题分类与结构化:
按照设备维修的特定场景对问题归类,覆盖定向分析(如“MCH-9669-C的数控机床维修详情”)、线索分析(如“钻床平均维修时长”)等核心场景,实现维修需求的全面覆盖。
3.核心算法建模:
(1)语义解析与要素提取:采用基于规则和词典的文本分析方法,解析自然语言问题,精准提取时间、对象、指标、约束条件等关键要素;
(2)SQL语句生成:基于预定义的“指标-字段”“对象-过滤条件”映射规则,自动生成标准化SQL查询语句;
(3)异常值检测:对生成的SQL及其执行结果双重校验,一方面用IsolationForest等算法检测SQL逻辑异常,另一方面结合数据统计特征识别结果异常值并打标或过滤,保障语料质量;
(4)逻辑核验与业务对齐:由资深设备维修人员对生成的“问题-SQL-结果”三元组进行最终核验,结合现场业务知识判断SQL逻辑正确性,确保语料既符合语法规范,又具备业务适用性。
4.语料库的持续迭代:
搭建语料库闭环迭代机制,新产生的业务问题及经核验的SQL语句定期注入语料库,同时结合大模型实际应用中的反馈(如查询失败、语义理解错误)定位薄弱环节并针对性补充,形成“应用-反馈-优化”的良性循环,持续提升语料库的覆盖度和质量。
登记内容:
关于台州市路桥数字产业有限公司、浙江金龙电机股份有限公司
浙江金龙电机股份有限公司是一家专业从事电机研发、生产和销售的企业,产品广泛应用于工业、家电等领域,具有较高的市场知名度。
关于浙江省数据知识产权登记平台
该平台是浙江省知识产权公共服务体系的核心组成部分,主要承担全省数据知识产权的登记存证、合规核验、流转配套服务等职能,为数据要素市场化流通提供官方合规支撑,可提供知识产权相关的公共数据与服务。





_1769672084863.jpg)