five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

港中大发布Uni-Edit-148k多模态图像编辑数据集 破解多模态模型训练能力协同痛点

五号数据雷达开源数据市场2026-05-22 05:2410
香港中文大学多媒体实验室团队于2026年5月21日在学术预印本平台arXiv首发Uni-Edit-148k智能图像编辑数据集,通过“单一编辑任务统一训练”的设计思路解决传统多模态训练中理解与生成能力冲突的行业痛点,可广泛应用于多模态图像编辑、视觉指令微调等领域。

近年来,多模态大模型已成为人工智能领域的核心研发方向,但其训练过程中长期存在“理解、生成、编辑能力难以协同提升”的共性痛点:传统多任务训练模式下,视觉理解、内容生成、逻辑推理等不同方向的训练目标往往存在内在冲突,难以通过单一训练流程实现模型能力的全面升级,高质量的专项训练数据集成为破解这一难题的核心支撑。

2026年5月21日,香港中文大学多媒体实验室等机构联合构建的智能图像编辑数据集Uni-Edit-148k正式首发于arXiv,为多模态模型的统一调优提供了全新的数据解决方案。据介绍,Uni-Edit-148k共包含14.8万条高质量标注样本,每条数据均由推理密集型复杂编辑指令、对应编辑后的图像两部分构成。为保障数据集的逻辑严谨性与内容质量,团队搭建了完整的质量闭环构建流程:指令源取自LLaVA-OneVision-1.5的开源视觉问答数据,目标图像通过Nano-Pro生成后,再经GPT-4o进行多轮严格筛选,确保所有样本的编辑指令与输出图像逻辑一致、视觉效果符合通用审美标准。

与传统的多模态训练数据集不同,Uni-Edit-148k的核心设计思路是将视觉理解任务转化为内嵌逻辑关联的编辑指令,通过单一的图像编辑任务同时训练模型的语义理解、逻辑推理、内容生成三类能力,从数据供给层面规避了传统多任务训练的目标冲突问题,为多模态模型实现理解、生成、编辑能力的协同提升提供了创新路径。

从应用维度来看,该数据集可广泛覆盖多个产业场景的研发需求:在内容创作领域,基于该数据集调优的模型可支撑更精准的“自然语言指令修图”功能,覆盖专业设计辅助、泛娱乐内容生成、电商商品图批量修改、智能家居场景的个性化内容生成等多个方向;在基础大模型研发领域,该数据集可作为通用微调数据,帮助多模态大模型补齐复杂编辑场景下的指令理解能力短板,提升模型的通用交互体验。作为人工智能产业的核心生产要素,高质量训练数据集的供给能力直接决定了AI模型的性能上限,此次港中大发布的Uni-Edit-148k填补了多模态统一编辑训练数据集的细分空白,也为国内AI训练数据的精细化研发提供了参考样本,对推动多模态大模型的落地应用与技术迭代具有积极意义。

查看Uni-Edit-148k

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们