five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Qwen首发Qwen-Image-Bench文生图评估基准数据集 填补专业创意场景标准化评测缺口

五号数据雷达开源数据市场2026-05-29 05:0114
2026年5月28日,大模型系列Qwen在HuggingFace首发面向创作场景的文生图评估基准数据集Qwen-Image-Bench,该数据集突破传统语义对齐评估的局限,可支撑文生图模型迭代、创意工作流优化等多元需求,为AIGC商用落地提供了标准化评估参考。

随着AIGC技术商用落地进程加速,文生图模型已广泛应用于广告设计、影视原画、工业建模、数字内容创作等多个领域,但行业长期缺乏贴合真实商用创意场景的标准化评估体系——传统评估维度多聚焦于文本与图像的语义对齐度,难以覆盖专业场景对真实还原度、创意表达适配性、美学效果等多元要求。在此背景下,Qwen正式发布面向创作者的文本到图像生成模型评估基准数据集Qwen-Image-Bench。

不同于传统文生图评估数据集,Qwen-Image-Bench旨在超越单一的语义对齐评估逻辑,通过新增“真实世界保真度”和“创意生成”两大应用驱动的核心评估维度,精准匹配专业创意工作流对内容还原度、创意落地能力的高要求。该数据集共包含1000条由行业专家精心设计的中英文双语提示词,提示词在长度、语言类型上实现均衡分布,每条提示词均可实现跨多个评估维度的4个以上细粒度能力考察。

为保障评估的系统性与精准性,Qwen-Image-Bench采用三层层次化评估体系,覆盖5个顶级评估支柱(质量、美学、对齐、真实世界保真度、创意生成)、23项细分模型子能力、56个具体评估维度,可实现对文生图模型能力的无死角扫描。数据集整体采用JSONL格式存储,每条记录包含提示词ID、中英文提示文本、评估维度描述、18个当前前沿文生图模型(包括GPT Image 2、Qwen Image 2.0 Pro等)生成的图像路径,同时配套发布了统一诊断评判模型Q-Judger的原始评估输出。据介绍,Q-Judger模型基于海量专家标注数据训练而成,可针对每个生成样本输出覆盖全部56个细粒度评估方面的得分向量,实现对模型能力短板的精准定位与诊断。

从典型应用场景来看,该基准数据集可支撑多元行业需求:对于文生图大模型研发厂商,可依托该数据集快速定位模型在细分场景下的能力短板,实现定向迭代优化;对于广告、设计、影视等下游商用主体,可基于该数据集完成文生图工具的选型测试,匹配自身业务对内容还原、创意表达的个性化要求;对于创意数字化服务平台,也可将该评估体系嵌入工作流,实现生成内容的自动质检,大幅降低人工审核成本,提升创意生产效率。该基准的发布也为AIGC领域评估类数据要素的标准化建设提供了参考样本,助力文生图产业从“能用”向“好用”的商用化阶段进阶。

查看Qwen-Image-Bench

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们