昆仑科技 本次发布的数据集 CSVQA, CSVQA是一个专门用于评估视觉语言模型(VLMs)科学推理能力的中文学科STEM多模态基准。它包含1,378个精心构建的问题-答案对,涵盖了STEM领域的多个学科,每个问题都需要领域知识、视觉证据的整合和高阶推理。与现有的多模态基准相比,CSVQA更强调现实世界的科学内容和复杂的推理。CSVQA数据集来源于中国高中STEM学科的公开教材和试卷,经过严格的筛选和注释,旨在为VLMs提供一个更具挑战性的评估框架。
Dataset card 内容:
Files and versions 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)