美国中央佛罗里达大学 本次发布的数据集 SIGMA, SIGMA数据集是由美国中央佛罗里达大学计算机科学系开发的,包含6000个自然语言问题及其对应的Python代码标签,跨越160个数据库。其中一半的问题涉及查询类型,另一半是进行统计分析的查询。该数据集的Python代码标签涵盖了4种查询类型和40种统计分析模式。数据集由九位拥有统计学或相关领域学位的人编写的3000个统计问题,以及由三位计算机科学研究生编写的2000个查询问题和来自Spider数据集的1000个问题组成。SIGMA数据集旨在推动文本到代码的语义解析研究,特别是在统计分析方面。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)