当前生成式AI技术快速落地,AIGC图像编辑已经成为文创、电商、影视、消费电子等多个领域的核心数字化工具:从电商平台的批量商品图修图、影视制作中的特效场景生成,到普通用户日常使用的AI影像美化功能,图像编辑模型的能力迭代直接决定了相关产品的用户体验。但长期以来,行业针对图像编辑模型的评测缺乏统一的标准化基准,多数机构依赖零散的内部测试用例,普遍存在任务场景覆盖不全、难度梯度设计不合理、评估结果与人类审美及常识判断对齐度低等问题,尤其是面向强化学习优化的奖励模型,更是缺乏贴近实际决策场景的专项评测数据,成为制约图像编辑技术规模化落地的核心瓶颈之一。
针对这一行业痛点,杭州电子科技大学联合北京大学、Kling团队、中国科学院自动化研究所共同构建的Edit-Compass与EditReward-Compass统一评估套件,于2026年5月13日正式在arXiv首发,为全行业提供了专业化的图像编辑模型及奖励模型评测依据。
据了解,本次发布的系列数据集分为两大模块,可覆盖图像编辑技术落地的全流程评测需求:其中Edit-Compass包含2388个精细标注实例,涵盖通用编辑、动态操作、世界知识推理、算法视觉推理、多图像理解等六大渐进式挑战性任务类别,所有数据均来自人工构建的多样化视觉场景,可实现从基础修图操作到复杂逻辑推理类编辑的全场景能力覆盖;EditReward-Compass则包含2251个偏好对,完全模拟强化学习优化过程中的实际决策场景,可针对奖励模型的判断准确性进行专项验证。两大模块均采用结构化推理与评分准则,支持细粒度的多维度评估,能够有效解决现有评测基准在任务难度设计、评估可靠性、人类判断对齐度等方面的普遍缺陷。
从应用价值来看,该系列数据集可覆盖多个行业场景的评测需求:对于AIGC技术厂商而言,可将其作为图像编辑大模型迭代过程中的标准化测试集,快速定位模型在逻辑推理、多图关联、复杂场景编辑等方面的能力短板,降低内测阶段的人工标注成本;对于奖励模型开发团队而言,EditReward-Compass的偏好对数据可直接用于奖励模型的效果验证,提升强化学习过程中反馈信号的准确性,减少模型生成结果违背人类审美、常识逻辑的问题;对于学术研究领域而言,该数据集可作为图像编辑技术方向的统一对比基准,方便不同科研机构的技术成果开展横向对比,推动整个领域的技术标准化发展。
作为AI训练评测类的高质量公共数据集,本次发布的Edit-Compass系列产品填补了国内图像编辑评测领域的专业化数据集空白,也为生成式AI领域的评测数据集建设提供了参考范式,有助于推动AIGC图像编辑技术从“可用”向“好用”升级,进一步支撑多个实体行业的数字化转型需求。
查看Edit-Compass and EditReward-Compass





_1769672084863.jpg)