南洋理工大学 本次发布的数据集 OpenUni Training Dataset, OpenUni 数据集是一个开放源代码的多模态理解和生成框架,由南洋理工大学 S-Lab, 商汤科技 SenseTime Research, 商汤科技和 Tetras.AI 的研究人员共同创建。该数据集包含约 2300 万个图像-文本对,用于训练和微调 OpenUni 模型,使其能够在图像生成和理解任务上取得优异的性能。数据集的创建过程采用了两阶段训练策略,首先在预训练阶段将大型语言模型和多模态模型进行对齐,然后在微调阶段使用高质量的数据进行优化。OpenUni 数据集的应用领域包括图像生成、多模态理解和世界知识理解,旨在解决多模态人工智能中的理解和生成任务统一问题。
README 内容:
关于 南洋理工大学 , 南洋理工大学是新加坡的一所综合性研究型大学,以工程和商业学科闻名,其研究实力在亚洲乃至世界范围内都具有较高的声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)