随着我国工业数字化转型进入深水区,大模型在生产管理、人力成本管控等场景的落地需求持续爆发,但垂直领域高质量、业务适配性强的标注语料匮乏,已成为制约工业大模型落地效率的核心痛点之一。2026年5月7日,台州市路桥数字产业有限公司与浙江保镖电子有限公司联合研发的工时薪资问数垂类大模型语料数据,正式在浙江省数据知识产权登记平台完成知识产权登记,成为浙江省工业生产管理领域首批完成合规确权的垂类大模型语料资产。
作为国内少见的聚焦工时薪资场景的高质量垂类语料,本次登记的数据可直接用于训练工业企业专属工时薪资垂类大语言模型,使其深度掌握该领域专属知识结构与业务规则,具备极高的落地价值:工业企业可基于语料中的“指标名称”“问题查询”字段,快速适配自身工时薪资数据表结构,启用自然语言转SQL等功能,模型可实现秒级生成合规SQL(响应时间≤0.6秒),替代传统人工编写SQL的工作模式,从而实现日常生产质量管理数据的即时、高效查询与分析。根据测算,应用该语料训练的模型可使工时薪资查询效率提升80%-90%,核算误差率从12%降至2%以下,全面覆盖“工时统计-薪资核算-考勤校验”全人力管理流程。对于人员规模大、排班模式复杂的离散制造、劳动密集型加工企业而言,这套语料可帮助HR部门、生产管理部门无需依赖专业数据团队,就能通过口语化查询快速获取特定时段、特定班组的工时核算、薪资发放数据,还可拓展至考勤异常预警、人力成本分析、生产排班优化等多个场景,为企业降本增效、人力配置优化提供数据支撑。
为了保障语料的业务适配性和准确率,研发团队建立了全流程的质控体系:
1.数据清洗与标准化:对从MES、SCADA等设备管理系统收集的原始问答对进行清洗,剔除重复、无效或存在明显逻辑矛盾的样本,其中“结果输出”为“无匹配数据”的样本作为查询无返回结果的标准语料被保留,增强了模型对数据缺失场景的理解能力;同时统一问题表述中的时间格式、指标名称和SQL语法风格,对建表语句进行格式化,统一字段类型和注释风格,确保语料的规范性和一致性。
2.问题分类与结构化:按照设备运维的特定场景对问题进行归类,主要包括组成分析(如“工资和工时”)、阈值查询(如“工资前三”)等,确保语料对设备运维核心场景的全面覆盖。
3.核心算法建模:一是通过语义解析与要素提取技术,采用基于规则和词典的文本分析方法,对自然语言问题进行解析,精准提取时间、对象、指标、约束条件等关键要素;二是基于预定义的“指标-字段”映射规则和“对象-过滤条件”映射规则,自动生成标准化的SQL查询语句;三是通过异常值检测机制,对生成的SQL及其执行结果进行双重校验,一方面利用IsolationForest等算法检测SQL语句的逻辑异常,另一方面结合数据统计特征识别结果中可能存在的异常值并打标或过滤,保障语料质量;四是建立逻辑核验与业务对齐机制,由资深设备运维人员对生成的问题-SQL-结果三元组进行最终核验,确保语料不仅语法正确,更具备高度的业务适用性和准确性。
4.语料库的持续迭代:构建语料库的闭环迭代机制,新产生的业务问题及其经核验的SQL语句会定期注入语料库,同时通过分析大语言模型在实际应用中的反馈,定位语料库的薄弱环节并进行针对性补充,形成“应用-反馈-优化”的良性循环,持续提升语料库的覆盖度和质量。
从行业价值来看,本次登记的语料为工业企业提供了稀缺的、高质量的垂直领域语料,有力支撑了生产质量管理领域的自然语言处理技术研发、模型训练与评测,对推动工业企业生产质量管理数据价值的深度挖掘和智能运维技术的发展具有重要意义。值得一提的是,浙江省数据知识产权登记平台是该省推进数据要素市场化配置改革的核心基础设施,本次登记完成后,该语料资产的权属得到官方合规确认,后续可依法依规开展数据资产质押、流通交易等操作,进一步释放数据要素价值,也为全国工业领域垂类数据资产的确权、流通提供了可复制的实践样本。
首页 / 数据知识产权登记 / 正文
浙江首份工时薪资垂类大模型语料完成省级数据知识产权登记 工业查询效率最高提升90%
五号数据雷达数据知识产权登记2026-05-08 02:573
2026年5月7日,台州市路桥数字产业有限公司与浙江保镖电子有限公司联合研发的工时薪资问数垂类大模型语料数据,正式在浙江省数据知识产权登记平台完成知识产权登记,该语料填补了工业生产管理垂直领域高质量标注语料空白,可广泛应用于工时薪资自然语言处理、工业数据自动化查询等场景,帮助制造企业显著提升人力管理效率、降低核算误差。

社区讨论
近期热门




_1769672084863.jpg)