法国洛林大学 本次发布的数据集 CareMedEval, CareMedEval数据集是一个专门用于评估语言模型在生物医学领域进行批判性评估和推理任务的能力的数据集。该数据集来源于法国医学生的真实考试,包含基于37篇科学文章的534个问题。与现有基准不同,CareMedEval明确评估基于科学论文的批判性阅读和推理。在各种上下文条件下对最先进的通用和生物医学专业语言模型进行基准测试表明,这项任务的难度:开放和商业模型无法超过0.5的精确匹配率,尽管生成中间推理标记可以显著提高结果。然而,模型在关于研究局限性和统计分析的问题上仍然面临挑战。CareMedEval为基于情境的推理提供了一个具有挑战性的基准,揭示了当前语言模型的局限性,并为未来开发自动化支持批判性评估的推理技术铺平了道路。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)