Baidu Inc. 本次发布的数据集 MATHREAL, MATHREAL是一个精心策划的数据集,包含2000个通过手持移动设备在真实场景中拍摄的数学问题图像。每个问题都是一个图像,包含问题文本和视觉元素。数据集系统地分类真实图像为三个主要类别:图像质量退化、视角变化和无关内容干扰,这些类别进一步细分为14个子类别。MATHREAL涵盖了五个核心知识和能力类别,包括三种问题类型,并分为三个难度级别。为了全面评估最先进的MLLMs在现实世界场景中的多模态数学推理能力,我们设计了六个实验设置,以便系统地分析其性能。通过广泛的实验,我们发现现有MLLMs在现实的教育环境中解决问题的关键能力受到显著挑战。基于此,我们对其性能和错误模式进行了彻底的分析,提供了对其识别、理解和推理能力的见解,并概述了未来改进的方向。数据集包括三种类型的问题:选择题、填空题和构造性回答题。在学术阶段方面,问题分布在三个教育阶段:小学、中学和高中,确保涵盖了K-12范围内的内容。此外,745个问题仅由真实图像伴随,而1255个问题既有真实图像也有干净图像。数据集还包括一个包含480个问题的testmini子集。详细的统计数据,包括问题类型和视觉内容类别,总结在表1中。数据收集过程包括从大规模用户上传的库中采样150万个拍摄的数学问题,并应用两阶段过滤过程来确保质量和相关性。数据标注过程包括三个完全人工阶段,最终确保最终数据集反映了多样化的现实世界条件,同时保持了用于评估多模态数学推理的高语义和结构质量。
Dataset card 内容:
Files and versions 内容:
关于 Baidu Inc. , 百度是中国领先的搜索引擎,提供网页搜索、图片搜索、视频搜索等多种在线信息检索服务。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)