随着AIGC技术商用落地进程加速,文生图模型已广泛应用于广告设计、影视原画、工业建模、数字内容创作等多个领域,但行业长期缺乏贴合真实商用创意场景的标准化评估体系——传统评估维度多聚焦于文本与图像的语义对齐度,难以覆盖专业场景对真实还原度、创意表达适配性、美学效果等多元要求。在此背景下,Qwen正式发布面向创作者的文本到图像生成模型评估基准数据集Qwen-Image-Bench。
不同于传统文生图评估数据集,Qwen-Image-Bench旨在超越单一的语义对齐评估逻辑,通过新增“真实世界保真度”和“创意生成”两大应用驱动的核心评估维度,精准匹配专业创意工作流对内容还原度、创意落地能力的高要求。该数据集共包含1000条由行业专家精心设计的中英文双语提示词,提示词在长度、语言类型上实现均衡分布,每条提示词均可实现跨多个评估维度的4个以上细粒度能力考察。
为保障评估的系统性与精准性,Qwen-Image-Bench采用三层层次化评估体系,覆盖5个顶级评估支柱(质量、美学、对齐、真实世界保真度、创意生成)、23项细分模型子能力、56个具体评估维度,可实现对文生图模型能力的无死角扫描。数据集整体采用JSONL格式存储,每条记录包含提示词ID、中英文提示文本、评估维度描述、18个当前前沿文生图模型(包括GPT Image 2、Qwen Image 2.0 Pro等)生成的图像路径,同时配套发布了统一诊断评判模型Q-Judger的原始评估输出。据介绍,Q-Judger模型基于海量专家标注数据训练而成,可针对每个生成样本输出覆盖全部56个细粒度评估方面的得分向量,实现对模型能力短板的精准定位与诊断。
从典型应用场景来看,该基准数据集可支撑多元行业需求:对于文生图大模型研发厂商,可依托该数据集快速定位模型在细分场景下的能力短板,实现定向迭代优化;对于广告、设计、影视等下游商用主体,可基于该数据集完成文生图工具的选型测试,匹配自身业务对内容还原、创意表达的个性化要求;对于创意数字化服务平台,也可将该评估体系嵌入工作流,实现生成内容的自动质检,大幅降低人工审核成本,提升创意生产效率。该基准的发布也为AIGC领域评估类数据要素的标准化建设提供了参考样本,助力文生图产业从“能用”向“好用”的商用化阶段进阶。





_1769672084863.jpg)