OSU NLP Group 发布 ScienceAgentBench 数据集, 应用在科学发现、语言代理评估领域

首页 / 开源数据市场 / 正文

五号数据雷达开源数据市场2024-10-29 07:0585

ScienceAgentBench 是 OSU NLP Group 发布的数据集,于 2024-10-28 首发在 HuggingFace 应用于科学发现、语言代理评估领域

OSU NLP Group 本次发布的数据集 ScienceAgentBench, ScienceAgentBench是一个用于评估语言代理在数据驱动科学发现中的新基准。该基准从44篇同行评审的出版物中提取了102个任务，涵盖四个学科，并由九位领域专家进行验证。每个任务的目标输出被统一为一个自包含的Python程序文件，并使用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过多轮手动验证，以确保其标注质量和科学合理性。为了防止数据污染，仅在Huggingface上提供标注表，包括运行代理所需的所有必要输入。评估代理生成的代码需要遵循GitHub仓库中的说明。

查看ScienceAgentBench

Dataset card 内容：

Files and versions 内容：

关于 OSU NLP Group , OSU NLP Group是俄亥俄州立大学（Ohio State University）内专注于自然语言处理（NLP）研究的学术团队，致力于推动NLP领域的技术发展和创新。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台，专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型，包括文本、图像、视频、音频和3D数据，并提供开源工具和付费计算及企业解决方案。

近期热门