维拉诺瓦大学本次发布的数据集Multi-PixMo-Cap; Multi-PixMo-AskModelAnything; Multi-PixMo-CoSyn-400k,Multi-PixMo是由维拉诺瓦大学和Aithlas联合开发的多语言视觉-语言数据集,包含Caption生成(Cap)、开放式视觉问答(AskModelAnything)和文本密集图像推理(CoSyn-400k)三大子集,总计280万条数据,覆盖5种欧洲语言。数据集采用再生-翻译技术,基于PixMo原有数据通过许可模型重新生成多语言标注,确保语义一致性和法律合规性。数据生成过程结合人工审核与模型迭代优化,重点提升跨语言视觉 grounding 质量。该资源旨在解决多模态模型训练中非英语数据稀缺和评估基准单一的问题,支持图像描述、视觉推理等任务的多语言研究。
查看Multi-PixMo-Cap; Multi-PixMo-AskModelAnything; Multi-PixMo-CoSyn-400k
Dataset card内容:
Files and versions内容:
README内容:
关于维拉诺瓦大学,维拉诺瓦大学是美国宾夕法尼亚州的一所私立天主教大学,成立于1842年,是美国最古老、规模最大的天主教大学之一。该校以文科、商科、工程和护理等领域的教育著称。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)