five

五号数据雷达

资产融资
资源入表
产品交易
知识产权
首页 / 开源数据市场 / 正文
OSU NLP Group 发布 ScienceAgentBench 数据集, 应用在 科学发现、语言代理评估 领域
五号数据雷达开源数据市场2024-10-29 07:0585
ScienceAgentBench 是 OSU NLP Group 发布的数据集,于 2024-10-28 首发在 HuggingFace 应用于 科学发现、语言代理评估 领域

OSU NLP Group 本次发布的数据集 ScienceAgentBench, ScienceAgentBench是一个用于评估语言代理在数据驱动科学发现中的新基准。该基准从44篇同行评审的出版物中提取了102个任务,涵盖四个学科,并由九位领域专家进行验证。每个任务的目标输出被统一为一个自包含的Python程序文件,并使用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过多轮手动验证,以确保其标注质量和科学合理性。为了防止数据污染,仅在Huggingface上提供标注表,包括运行代理所需的所有必要输入。评估代理生成的代码需要遵循GitHub仓库中的说明。

查看ScienceAgentBench

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 OSU NLP Group , OSU NLP Group是俄亥俄州立大学(Ohio State University)内专注于自然语言处理(NLP)研究的学术团队,致力于推动NLP领域的技术发展和创新。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们