five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

AI at Meta发布airs-bench数据集,应用在机器学习、基准测试领域

五号数据雷达开源数据市场2026-03-11 03:2943
airs-bench是AI at Meta发布的数据集,于2026-03-09首发在HuggingFace应用于机器学习、基准测试领域

AI at Meta本次发布的数据集airs-bench,AIRS-Bench(AI研究科学基准)是一个用于量化LLM代理在机器学习领域自主研究能力的基准测试。该数据集包含20个来自前沿机器学习论文的任务,涵盖多个领域:自然语言处理(NLP)、代码、数学、生化建模和时间序列预测。每个任务由一个⟨问题、数据集、指标⟩三元组和一个SOTA(最先进)值定义。代理接收完整的任务规范,并需要开发一个解决方案以生成测试集的预测,然后进行评估并与已发表论文中的SOTA分数进行比较。数据集包含任务规范文件,适用于aira-dojo代理工具。任务分为多个类别,包括文本分类、问答、文本提取与匹配、分子与蛋白质机器学习、时间序列、代码和数学。每个任务的数据字段包括任务标识符、类别、研究问题、数据集标识符、评估指标以及多个脚本文件(如元数据文件、任务提示、数据集准备脚本、评估脚本等)。数据集采用CC BY-NC 4.0许可证发布。

查看airs-bench

关于AI at Meta,AI at Meta是Meta公司旗下的人工智能研究团队,致力于推动机器学习技术的前沿发展。

关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们