five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

阿联酋MBZUAI发布CAMEL-Bench多模态数据集 覆盖视觉问答、图像指令跟随核心场景

五号数据雷达开源数据市场2026-05-09 03:298
阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)于2026年5月8日在HuggingFace平台首发多模态数据集CAMEL-Bench,该数据集包含结构化图文标注资源,可为多模态大模型的视觉交互类任务训练、性能评测提供高质量数据支撑。

近年来,多模态大模型已成为全球AI领域的研发核心,图文交互类能力是大模型落地消费端、产业端场景的核心支撑,而高质量的配对标注数据集,始终是制约多模态模型性能提升、场景适配的核心瓶颈之一。作为全球首个专注人工智能领域的研究型高等院校,阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)长期深耕计算机视觉、多模态学习等前沿领域,其研发成果在全球AI科研社区拥有较高认可度。2026年5月8日,MBZUAI在全球最大的AI开源社区HuggingFace首发多模态数据集CAMEL-Bench,为多模态任务研发提供了新的高质量数据供给。

本次发布的CAMEL-Bench是典型的图文配对多模态数据集,包含文本、图像两类核心数据资源,其结构化设计覆盖问题(question)、答案(answer)、子集分类(subset)、提示词(prompt)以及图像列表(images)五大核心字段,可适配有监督微调、小样本学习、指令微调等多种训练范式的数据要求。目前已开放的训练集包含1613个标注样本,总数据量约2.3GB,相关资源已同步上线专业数据集服务平台。查看CAMEL-Bench

从适配场景来看,CAMEL-Bench主要面向需要结合图文信息处理的多模态任务,核心覆盖视觉问答、基于图像的指令跟随两大核心领域。在视觉问答场景下,该数据集可支撑大模型训练实现电商商品图文咨询、工业设备缺陷排查答疑、视障群体无障碍读图辅助等功能;在图像指令跟随场景下,经过该数据集训练的模型可支持智能家居视觉控制、自动驾驶多模态指令交互、服务机器人现场任务执行等落地应用,为多模态技术从实验室走向产业场景提供数据支撑。

当前全球AI训练数据要素供给市场中,细分场景的高质量标注数据缺口持续扩大,数据供给的质量、垂直覆盖度直接决定了AI产业的迭代速度。此次MBZUAI发布的CAMEL-Bench数据集,不仅丰富了多模态领域的训练数据供给,也为全球AI科研社区的多模态任务基准评测、模型性能迭代提供了新的参考标的,对推动多模态AI技术的普惠化发展具有积极作用。

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们