首页 / 开源数据市场 / 正文

杭电联合多机构发布Edit-Compass系列评测数据集补齐AIGC图像编辑标准化评估短板

五号数据雷达开源数据市场2026-05-15 07:5414

杭州电子科技大学联合北京大学、Kling团队、中国科学院自动化研究所共同构建的Edit-Compass与EditReward-Compass系列评测数据集于2026年5月13日首发于arXiv，可系统支撑图像编辑模型、奖励模型的多维度细粒度评测，解决现有评估基准任务覆盖不全、与人类判断对齐度低等行业痛点。

当前生成式AI技术快速落地，AIGC图像编辑已经成为文创、电商、影视、消费电子等多个领域的核心数字化工具：从电商平台的批量商品图修图、影视制作中的特效场景生成，到普通用户日常使用的AI影像美化功能，图像编辑模型的能力迭代直接决定了相关产品的用户体验。但长期以来，行业针对图像编辑模型的评测缺乏统一的标准化基准，多数机构依赖零散的内部测试用例，普遍存在任务场景覆盖不全、难度梯度设计不合理、评估结果与人类审美及常识判断对齐度低等问题，尤其是面向强化学习优化的奖励模型，更是缺乏贴近实际决策场景的专项评测数据，成为制约图像编辑技术规模化落地的核心瓶颈之一。

针对这一行业痛点，杭州电子科技大学联合北京大学、Kling团队、中国科学院自动化研究所共同构建的Edit-Compass与EditReward-Compass统一评估套件，于2026年5月13日正式在arXiv首发，为全行业提供了专业化的图像编辑模型及奖励模型评测依据。

据了解，本次发布的系列数据集分为两大模块，可覆盖图像编辑技术落地的全流程评测需求：其中Edit-Compass包含2388个精细标注实例，涵盖通用编辑、动态操作、世界知识推理、算法视觉推理、多图像理解等六大渐进式挑战性任务类别，所有数据均来自人工构建的多样化视觉场景，可实现从基础修图操作到复杂逻辑推理类编辑的全场景能力覆盖；EditReward-Compass则包含2251个偏好对，完全模拟强化学习优化过程中的实际决策场景，可针对奖励模型的判断准确性进行专项验证。两大模块均采用结构化推理与评分准则，支持细粒度的多维度评估，能够有效解决现有评测基准在任务难度设计、评估可靠性、人类判断对齐度等方面的普遍缺陷。

从应用价值来看，该系列数据集可覆盖多个行业场景的评测需求：对于AIGC技术厂商而言，可将其作为图像编辑大模型迭代过程中的标准化测试集，快速定位模型在逻辑推理、多图关联、复杂场景编辑等方面的能力短板，降低内测阶段的人工标注成本；对于奖励模型开发团队而言，EditReward-Compass的偏好对数据可直接用于奖励模型的效果验证，提升强化学习过程中反馈信号的准确性，减少模型生成结果违背人类审美、常识逻辑的问题；对于学术研究领域而言，该数据集可作为图像编辑技术方向的统一对比基准，方便不同科研机构的技术成果开展横向对比，推动整个领域的技术标准化发展。

作为AI训练评测类的高质量公共数据集，本次发布的Edit-Compass系列产品填补了国内图像编辑评测领域的专业化数据集空白，也为生成式AI领域的评测数据集建设提供了参考范式，有助于推动AIGC图像编辑技术从“可用”向“好用”升级，进一步支撑多个实体行业的数字化转型需求。

查看Edit-Compass and EditReward-Compass

详情页内容：

社区讨论

近期热门

杭电联合多机构发布Edit-Compass系列评测数据集 补齐AIGC图像编辑标准化评估短板

详情页内容：

社区讨论

杭电联合多机构发布Edit-Compass系列评测数据集补齐AIGC图像编辑标准化评估短板