five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 数据知识产权登记 / 正文

工业企业问数质检垂类大模型语料数据已成功在浙江省数据知识产权登记平台进行登记,应用在工业质检自然语言处理、文本转SQL领域

五号数据雷达数据知识产权登记2026-05-09 03:345
2026-04-10,台州市路桥数字产业有限公司,浙江金龙电机股份有限公司旗下工业企业问数质检垂类大模型语料数据数据知识产权在浙江省数据知识产权登记平台完成登记,应用于工业质检自然语言处理、文本转SQL领域

台州市路桥数字产业有限公司,浙江金龙电机股份有限公司本次登记的数据知识产权工业企业问数质检垂类大模型语料数据,该数据可用于训练工业企业问数质检垂类大语言模型,使其能够深度理解企业经营管理过程中对于产品质量检验方向的自然语言问题,并准确转化为对应的SQL查询语句,从而实现企业数据的高效查询与分析。依托企业真实经营数据构建标准化语料体系,模型经训练后可精准理解“合格率计算”“不良品追溯”等工业质检特有需求,工业企业可基于本语料数据的“行业类型”“业务场景”字段,适配自身数据表结构(如替换建表语句中的表名、字段名),快速启用文字转SQL功能进行复用。本数据也为工业领域提供稀缺的、高质量的垂直领域语料库,支撑意图识别、自然语言处理等核心技术的研发与评测,推动工业企业数据分析标准的建立与技术发展。1.数据预处理:采用数据清洗+格式标准化双重机制提升数据质量,去除重复、矛盾及无效信息,统一指标名称、SQL语法和业务表述方式,补齐缺失字段与查询示例,保证数据规范、通用、一致。 2.问题收集与分类:从企业经营管理系统(如ERP、MES、CRM等)中收集常见问题,按业务领域(如生产管理、质量控制、供应链管理、财务分析等)进行分类整理,确保语料覆盖企业核心业务场景。 3.核心算法建模:构建“语义解析-查询生成-异常检测-逻辑验证”全流程算法体系。 (1)语义解析与结构化:采用递归字符文本分块技术对自然语言问题进行智能切分,将整句如"上月A车间的合格率是多少?"精准拆分为语义单元[‘上月’,‘A车间’,‘合格率’,‘是多少’],为后续分析奠定基础。系统基于常见的自然语言处理技术(如词性标注、命名实体识别、意图分类等)初步提取问题中的关键要素。 (2)SQL生成与初步验证:基于企业数据模型,采用基于规则和机器学习相结合的方法,将自然语言问题映射到对应的SQL查询语句,生成初步的SQL候选。系统通过企业数据模型验证SQL语句的正确性,并进行必要的调整,确保生成的SQL语句符合数据模型规范。 (3)异常值检测:采用IsolationForest算法检测“结果输出”字段中的异常SQL(如查询结果与业务实际偏差超10%),结合数据完整性检查(如缺失建表语句的语料标记),异常语料过滤率≥99%。 (4)逻辑核验与优化:由企业业务人员对系统生成的SQL语句进行核验、修正,确保SQL语句的正确性、业务适用性及查询效率。企业业务人员将结合企业实际业务场景,从标准SQL语料库中进行比对,筛选出最合适的应答内容,为智能问数的准确查询提供重要依据。 4.语料库迭代优化:通过AI模型的实际应用反馈,持续优化语料库内容。每新增一个企业场景,系统将自动收集新的问题-SQL对,并通过业务员验证后加入语料库,形成"应用-反馈-优化"的良性循环,不断提升语料库的质量和覆盖度。 该算法规则确保了语料数据的专业性、准确性和实用性,为工业企业问数垂类大语言模型的训练提供了高质量的支撑,推动了工业企业数据价值的深度挖掘和高效利用。

查看工业企业问数质检垂类大模型语料数据

登记内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们