OSU NLP Group 本次发布的数据集 ScienceAgentBench, ScienceAgentBench是一个用于评估语言代理在数据驱动科学发现中的新基准。该基准从44篇同行评审的出版物中提取了102个任务,涵盖四个学科,并由九位领域专家进行验证。每个任务的目标输出被统一为一个自包含的Python程序文件,并使用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过多轮手动验证,以确保其标注质量和科学合理性。为了防止数据污染,仅在Huggingface上提供标注表,包括运行代理所需的所有必要输入。评估代理生成的代码需要遵循GitHub仓库中的说明。
Dataset card 内容:
Files and versions 内容:
关于 OSU NLP Group , OSU NLP Group是俄亥俄州立大学(Ohio State University)内专注于自然语言处理(NLP)研究的学术团队,致力于推动NLP领域的技术发展和创新。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。




_1769672084863.jpg)