北卡罗来纳大学教堂山分校 本次发布的数据集 EduVisBench, EduVisBench是一个多领域、多层次的基准数据集,旨在评估基础模型生成教育有效、逐步的视觉推理的能力。该数据集包含1154个精心策划的STEM问题,涵盖三个学术科目和15个不同的领域,分为三个难度级别。除了评估逐步解决问题的准确性外,EduVisBench还特别强调模型清晰和视觉地传达推理过程的能力,帮助学生通过结构化、可解释的视觉输出理解问题。EduVisBench采用多模态设置,模型被提供文本和视觉输入,并被要求生成多种输出格式,包括交互式网页和视觉图表。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)