上海人工智能实验室 本次发布的数据集 ResearchBench, ResearchBench是一个大规模的评估大型语言模型在科学研究发现中能力的基准数据集。该数据集由上海人工智能实验室等研究机构创建,包含12个学科领域的1386篇论文,通过自动化框架提取了研究问题、背景调查、灵感和假设等关键组件。数据集的构建目的是为了评估LLM在科学研究发现过程中的性能,特别是在处理灵感检索、假设组合和假设排序任务时的有效性。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)