当前多模态大模型技术快速迭代,非英语语种的跨模态训练数据与评估基准稀缺已成为制约多语言多模态研究发展的核心痛点之一。近日,美国维拉诺瓦大学联合Aithlas发布Multi-PixMo系列多语言视觉-语言数据集,该系列数据集于2026年4月20日首发于预印本平台arXiv,可广泛应用于多语言视觉-语言研究、多模态模型训练等领域。
本次发布的系列数据集共包含三大子集:面向图像字幕生成任务的Multi-PixMo-Cap、面向开放式视觉问答任务的Multi-PixMo-AskModelAnything,以及面向文本密集图像推理任务的Multi-PixMo-CoSyn-400k,总数据规模达280万条,覆盖5种欧洲语言。为兼顾标注质量与合规性,数据集采用再生-翻译技术,基于PixMo原有数据通过获许可的模型重新生成多语言标注,确保语义一致性与法律合规性;数据生成过程还结合人工审核与模型迭代优化机制,重点提升跨语言视觉 grounding 质量。
该系列数据集的推出,针对性解决了多模态研究领域非英语数据稀缺、评估基准单一的问题,可为图像描述、视觉推理等任务的多语言方向研究提供标准化的数据支撑。
查看Multi-PixMo-Cap; Multi-PixMo-AskModelAnything; Multi-PixMo-CoSyn-400k
关于维拉诺瓦大学:维拉诺瓦大学是美国宾夕法尼亚州的一所私立天主教大学,成立于1842年,是美国最古老、规模最大的天主教大学之一。该校以本科教育为主,同时提供研究生课程,尤其在商学、工程、护理和法学等领域享有盛誉。
关于arXiv:全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域,是全球科研人员发布、分享前沿学术成果的重要公共平台。





_1769672084863.jpg)