首页 / 开源数据市场 / 正文

AI at Meta发布airs-bench数据集,应用在机器学习、基准测试领域

五号数据雷达开源数据市场2026-03-11 03:2943

airs-bench是AI at Meta发布的数据集,于2026-03-09首发在HuggingFace应用于机器学习、基准测试领域

AI at Meta本次发布的数据集airs-bench,AIRS-Bench（AI研究科学基准）是一个用于量化LLM代理在机器学习领域自主研究能力的基准测试。该数据集包含20个来自前沿机器学习论文的任务，涵盖多个领域：自然语言处理（NLP）、代码、数学、生化建模和时间序列预测。每个任务由一个⟨问题、数据集、指标⟩三元组和一个SOTA（最先进）值定义。代理接收完整的任务规范，并需要开发一个解决方案以生成测试集的预测，然后进行评估并与已发表论文中的SOTA分数进行比较。数据集包含任务规范文件，适用于aira-dojo代理工具。任务分为多个类别，包括文本分类、问答、文本提取与匹配、分子与蛋白质机器学习、时间序列、代码和数学。每个任务的数据字段包括任务标识符、类别、研究问题、数据集标识符、评估指标以及多个脚本文件（如元数据文件、任务提示、数据集准备脚本、评估脚本等）。数据集采用CC BY-NC 4.0许可证发布。

查看airs-bench

关于AI at Meta,AI at Meta是Meta公司旗下的人工智能研究团队，致力于推动机器学习技术的前沿发展。

关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。

社区讨论

近期热门