随着大模型技术在企业数字化场景的渗透,通过自然语言直接生成SQL查询、降低非技术人员的数据获取门槛,已成为数据要素普惠应用的核心方向之一。然而此前行业通用的文本到SQL评估基准普遍存在场景覆盖有限、缺乏细粒度错误诊断能力、与企业真实异构数据库环境适配性不足等痛点,导致大量模型在测试集上得分较高,但落地到实际业务场景时准确率大幅下滑,制约了相关技术的商用进程。
滑铁卢大学本次发布的数据集SQLyzr,正是针对上述行业痛点研发的新一代文本到SQL模型评估基准,包含20,979个经过人工校验的自然语言问题与SQL查询的配对数据。该数据集整合了Spider、BIRD和BEAVER等当前全球主流基准的286个数据库资源,同时兼容SQLite和MySQL两大主流数据库引擎,可覆盖绝大多数中小微企业及政务场景的数据库运行环境。为提升评估的科学性和针对性,SQLyzr采用六类36子类的SQL查询分类体系,可对单表查询、多表关联、聚合运算、嵌套查询等不同复杂度的SQL生成能力进行拆分评估,同时引入执行准确性、结构复杂度、语义匹配度等多维评估指标,解决了现有基准在现实场景适用性、细粒度诊断等方面的不足,为文本到SQL模型的迭代优化提供了更为科学的评估工具。
从应用价值来看,SQLyzr首先可为大模型厂商、AI技术服务商的文本到SQL模型研发提供统一的测试标尺,帮助研发人员精准定位模型在不同类型SQL生成任务中的能力短板,大幅缩短模型迭代周期;其次,低代码平台、智能BI工具厂商可借助该数据集对自身的自然语言查询功能进行全场景验证,降低自有测试数据集的搭建成本;此外,该数据集也可为全球高校、科研机构的数据库自然语言交互相关研究提供标准化的横向对比基础,推动学术成果的快速转化。长远来看,该类标准化评估工具的普及,将进一步降低企业数据使用的技术门槛,助力业务人员直接参与数据洞察,为数据要素在全场景的落地应用扫清技术障碍。





_1769672084863.jpg)