five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

美国中央佛罗里达大学 发布 SIGMA 数据集, 应用在 自然语言处理、语义解析 领域

五号数据雷达开源数据市场2025-04-09 11:2832
SIGMA 是 美国中央佛罗里达大学 发布的数据集,于 2025-04-06 首发在 arXiv 应用于 自然语言处理、语义解析 领域

美国中央佛罗里达大学 本次发布的数据集 SIGMA, SIGMA数据集是由美国中央佛罗里达大学计算机科学系开发的,包含6000个自然语言问题及其对应的Python代码标签,跨越160个数据库。其中一半的问题涉及查询类型,另一半是进行统计分析的查询。该数据集的Python代码标签涵盖了4种查询类型和40种统计分析模式。数据集由九位拥有统计学或相关领域学位的人编写的3000个统计问题,以及由三位计算机科学研究生编写的2000个查询问题和来自Spider数据集的1000个问题组成。SIGMA数据集旨在推动文本到代码的语义解析研究,特别是在统计分析方面。

查看SIGMA

README 内容: 

 

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们