首页 / 开源数据市场 / 正文

港中大发布Uni-Edit-148k多模态图像编辑数据集破解多模态模型训练能力协同痛点

五号数据雷达开源数据市场2026-05-22 05:2410

香港中文大学多媒体实验室团队于2026年5月21日在学术预印本平台arXiv首发Uni-Edit-148k智能图像编辑数据集，通过“单一编辑任务统一训练”的设计思路解决传统多模态训练中理解与生成能力冲突的行业痛点，可广泛应用于多模态图像编辑、视觉指令微调等领域。

近年来，多模态大模型已成为人工智能领域的核心研发方向，但其训练过程中长期存在“理解、生成、编辑能力难以协同提升”的共性痛点：传统多任务训练模式下，视觉理解、内容生成、逻辑推理等不同方向的训练目标往往存在内在冲突，难以通过单一训练流程实现模型能力的全面升级，高质量的专项训练数据集成为破解这一难题的核心支撑。

2026年5月21日，香港中文大学多媒体实验室等机构联合构建的智能图像编辑数据集Uni-Edit-148k正式首发于arXiv，为多模态模型的统一调优提供了全新的数据解决方案。据介绍，Uni-Edit-148k共包含14.8万条高质量标注样本，每条数据均由推理密集型复杂编辑指令、对应编辑后的图像两部分构成。为保障数据集的逻辑严谨性与内容质量，团队搭建了完整的质量闭环构建流程：指令源取自LLaVA-OneVision-1.5的开源视觉问答数据，目标图像通过Nano-Pro生成后，再经GPT-4o进行多轮严格筛选，确保所有样本的编辑指令与输出图像逻辑一致、视觉效果符合通用审美标准。

与传统的多模态训练数据集不同，Uni-Edit-148k的核心设计思路是将视觉理解任务转化为内嵌逻辑关联的编辑指令，通过单一的图像编辑任务同时训练模型的语义理解、逻辑推理、内容生成三类能力，从数据供给层面规避了传统多任务训练的目标冲突问题，为多模态模型实现理解、生成、编辑能力的协同提升提供了创新路径。

从应用维度来看，该数据集可广泛覆盖多个产业场景的研发需求：在内容创作领域，基于该数据集调优的模型可支撑更精准的“自然语言指令修图”功能，覆盖专业设计辅助、泛娱乐内容生成、电商商品图批量修改、智能家居场景的个性化内容生成等多个方向；在基础大模型研发领域，该数据集可作为通用微调数据，帮助多模态大模型补齐复杂编辑场景下的指令理解能力短板，提升模型的通用交互体验。作为人工智能产业的核心生产要素，高质量训练数据集的供给能力直接决定了AI模型的性能上限，此次港中大发布的Uni-Edit-148k填补了多模态统一编辑训练数据集的细分空白，也为国内AI训练数据的精细化研发提供了参考样本，对推动多模态大模型的落地应用与技术迭代具有积极意义。

查看Uni-Edit-148k

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

港中大发布Uni-Edit-148k多模态图像编辑数据集 破解多模态模型训练能力协同痛点

Dataset card内容：

Files and versions内容：

社区讨论

港中大发布Uni-Edit-148k多模态图像编辑数据集破解多模态模型训练能力协同痛点