five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

杭电联合多机构发布Edit-Compass系列评测数据集 补齐AIGC图像编辑标准化评估短板

五号数据雷达开源数据市场2026-05-15 07:5414
杭州电子科技大学联合北京大学、Kling团队、中国科学院自动化研究所共同构建的Edit-Compass与EditReward-Compass系列评测数据集于2026年5月13日首发于arXiv,可系统支撑图像编辑模型、奖励模型的多维度细粒度评测,解决现有评估基准任务覆盖不全、与人类判断对齐度低等行业痛点。

当前生成式AI技术快速落地,AIGC图像编辑已经成为文创、电商、影视、消费电子等多个领域的核心数字化工具:从电商平台的批量商品图修图、影视制作中的特效场景生成,到普通用户日常使用的AI影像美化功能,图像编辑模型的能力迭代直接决定了相关产品的用户体验。但长期以来,行业针对图像编辑模型的评测缺乏统一的标准化基准,多数机构依赖零散的内部测试用例,普遍存在任务场景覆盖不全、难度梯度设计不合理、评估结果与人类审美及常识判断对齐度低等问题,尤其是面向强化学习优化的奖励模型,更是缺乏贴近实际决策场景的专项评测数据,成为制约图像编辑技术规模化落地的核心瓶颈之一。

针对这一行业痛点,杭州电子科技大学联合北京大学、Kling团队、中国科学院自动化研究所共同构建的Edit-Compass与EditReward-Compass统一评估套件,于2026年5月13日正式在arXiv首发,为全行业提供了专业化的图像编辑模型及奖励模型评测依据。

据了解,本次发布的系列数据集分为两大模块,可覆盖图像编辑技术落地的全流程评测需求:其中Edit-Compass包含2388个精细标注实例,涵盖通用编辑、动态操作、世界知识推理、算法视觉推理、多图像理解等六大渐进式挑战性任务类别,所有数据均来自人工构建的多样化视觉场景,可实现从基础修图操作到复杂逻辑推理类编辑的全场景能力覆盖;EditReward-Compass则包含2251个偏好对,完全模拟强化学习优化过程中的实际决策场景,可针对奖励模型的判断准确性进行专项验证。两大模块均采用结构化推理与评分准则,支持细粒度的多维度评估,能够有效解决现有评测基准在任务难度设计、评估可靠性、人类判断对齐度等方面的普遍缺陷。

从应用价值来看,该系列数据集可覆盖多个行业场景的评测需求:对于AIGC技术厂商而言,可将其作为图像编辑大模型迭代过程中的标准化测试集,快速定位模型在逻辑推理、多图关联、复杂场景编辑等方面的能力短板,降低内测阶段的人工标注成本;对于奖励模型开发团队而言,EditReward-Compass的偏好对数据可直接用于奖励模型的效果验证,提升强化学习过程中反馈信号的准确性,减少模型生成结果违背人类审美、常识逻辑的问题;对于学术研究领域而言,该数据集可作为图像编辑技术方向的统一对比基准,方便不同科研机构的技术成果开展横向对比,推动整个领域的技术标准化发展。

作为AI训练评测类的高质量公共数据集,本次发布的Edit-Compass系列产品填补了国内图像编辑评测领域的专业化数据集空白,也为生成式AI领域的评测数据集建设提供了参考范式,有助于推动AIGC图像编辑技术从“可用”向“好用”升级,进一步支撑多个实体行业的数字化转型需求。

查看Edit-Compass and EditReward-Compass

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们