Scale AI 本次发布的数据集 ENIGMAEVAL, ENIGMAEVAL是一个由Scale AI发布的谜题数据集,包含了1184个不同难度的谜题,这些谜题来源于全球范围内的谜题解决社区举办的竞赛和活动。数据集分为正常和困难两个部分,涵盖了文本和图像等多种模态,旨在评估模型在解决非结构化多模态问题时的隐式知识综合和多步演绎推理能力。数据集的创建过程中,人类注释者将每个谜题转录为标准化的文本-图像格式,以便对模型的推理能力和处理复杂数据文档的能力进行分离评估。该数据集的应用领域是语言模型的多模态推理评估,旨在解决模型在面对需要非结构化和横向推理的复杂问题时的性能问题。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)