AI at Meta本次发布的数据集airs-bench,AIRS-Bench(AI研究科学基准)是一个用于量化LLM代理在机器学习领域自主研究能力的基准测试。该数据集包含20个来自前沿机器学习论文的任务,涵盖多个领域:自然语言处理(NLP)、代码、数学、生化建模和时间序列预测。每个任务由一个⟨问题、数据集、指标⟩三元组和一个SOTA(最先进)值定义。代理接收完整的任务规范,并需要开发一个解决方案以生成测试集的预测,然后进行评估并与已发表论文中的SOTA分数进行比较。数据集包含任务规范文件,适用于aira-dojo代理工具。任务分为多个类别,包括文本分类、问答、文本提取与匹配、分子与蛋白质机器学习、时间序列、代码和数学。每个任务的数据字段包括任务标识符、类别、研究问题、数据集标识符、评估指标以及多个脚本文件(如元数据文件、任务提示、数据集准备脚本、评估脚本等)。数据集采用CC BY-NC 4.0许可证发布。
关于AI at Meta,AI at Meta是Meta公司旗下的人工智能研究团队,致力于推动机器学习技术的前沿发展。
关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。





_1769672084863.jpg)