首页 / 开源数据市场 / 正文

Qwen首发Qwen-Image-Bench文生图评估基准数据集填补专业创意场景标准化评测缺口

五号数据雷达开源数据市场2026-05-29 05:0114

2026年5月28日，大模型系列Qwen在HuggingFace首发面向创作场景的文生图评估基准数据集Qwen-Image-Bench，该数据集突破传统语义对齐评估的局限，可支撑文生图模型迭代、创意工作流优化等多元需求，为AIGC商用落地提供了标准化评估参考。

随着AIGC技术商用落地进程加速，文生图模型已广泛应用于广告设计、影视原画、工业建模、数字内容创作等多个领域，但行业长期缺乏贴合真实商用创意场景的标准化评估体系——传统评估维度多聚焦于文本与图像的语义对齐度，难以覆盖专业场景对真实还原度、创意表达适配性、美学效果等多元要求。在此背景下，Qwen正式发布面向创作者的文本到图像生成模型评估基准数据集Qwen-Image-Bench。

不同于传统文生图评估数据集，Qwen-Image-Bench旨在超越单一的语义对齐评估逻辑，通过新增“真实世界保真度”和“创意生成”两大应用驱动的核心评估维度，精准匹配专业创意工作流对内容还原度、创意落地能力的高要求。该数据集共包含1000条由行业专家精心设计的中英文双语提示词，提示词在长度、语言类型上实现均衡分布，每条提示词均可实现跨多个评估维度的4个以上细粒度能力考察。

为保障评估的系统性与精准性，Qwen-Image-Bench采用三层层次化评估体系，覆盖5个顶级评估支柱（质量、美学、对齐、真实世界保真度、创意生成）、23项细分模型子能力、56个具体评估维度，可实现对文生图模型能力的无死角扫描。数据集整体采用JSONL格式存储，每条记录包含提示词ID、中英文提示文本、评估维度描述、18个当前前沿文生图模型（包括GPT Image 2、Qwen Image 2.0 Pro等）生成的图像路径，同时配套发布了统一诊断评判模型Q-Judger的原始评估输出。据介绍，Q-Judger模型基于海量专家标注数据训练而成，可针对每个生成样本输出覆盖全部56个细粒度评估方面的得分向量，实现对模型能力短板的精准定位与诊断。

从典型应用场景来看，该基准数据集可支撑多元行业需求：对于文生图大模型研发厂商，可依托该数据集快速定位模型在细分场景下的能力短板，实现定向迭代优化；对于广告、设计、影视等下游商用主体，可基于该数据集完成文生图工具的选型测试，匹配自身业务对内容还原、创意表达的个性化要求；对于创意数字化服务平台，也可将该评估体系嵌入工作流，实现生成内容的自动质检，大幅降低人工审核成本，提升创意生产效率。该基准的发布也为AIGC领域评估类数据要素的标准化建设提供了参考样本，助力文生图产业从“能用”向“好用”的商用化阶段进阶。

查看Qwen-Image-Bench

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

Qwen首发Qwen-Image-Bench文生图评估基准数据集 填补专业创意场景标准化评测缺口

Dataset card内容：

Files and versions内容：

社区讨论

Qwen首发Qwen-Image-Bench文生图评估基准数据集填补专业创意场景标准化评测缺口