随着生成式AI在商业设计、内容创作等创意领域的渗透率持续提升,行业长期面临创意类AI能力缺乏统一评估标准的痛点:现有评测体系大多侧重技术正确性的收敛性考核,难以覆盖审美、创意表现力等发散性维度的量化评估,也无法对齐专业创意从业者的真实评判标准,成为制约创意AI规模化落地的核心瓶颈之一。
2026年6月30日,麻省理工学院联合Contra团队共同构建的专业评估数据集The Human Creativity Benchmark(HCB,人类创造力基准)正式首发于预印本平台arXiv,瞄准创意AI评估、生成模型评测领域的核心需求打造,为行业提供了首个覆盖多创意赛道、基于专业人士评判体系的标准化评测基准。
据介绍,本次发布的HCB数据集共包含5940组专业评判数据,覆盖着陆页设计、桌面应用设计、广告图像创作等五大主流创意领域,数据集构建完全贴合真实创意工作流程:研发团队首先采用真实商业创意需求中的专业提示词生成待评估内容,随后邀请28位来自13个国家的创意领域专家,通过配对比较、标度评分、定性解释三个阶段的标准化工作流程,对多个前沿生成式AI模型的输出结果完成多维度标注,最大限度还原了专业场景下的创意评判逻辑。
与现有同类评测数据集不同,HCB首次明确区分了创意评估中的两类核心信号:一类是考核输出是否符合需求的收敛性信号(即技术正确性),另一类是考核创意表现力、审美契合度的发散性信号(即审美偏好),两类数据的分层标注为开发兼具可靠性与创意引导性的AI系统提供了实证基础。从应用场景来看,该数据集可支撑多类主体的需求:生成式AI厂商可依托该基准完成不同版本模型的创意能力横向对比,优化训练目标,平衡技术合规性与创意表达空间;商业创意服务机构可借助该基准对齐AI创意输出的评估标准,减少供需双方的审美认知差,降低沟通成本;学术研究机构也可基于该数据集开展人类创造力量化、人机协同创意机制等前沿方向的研究。作为AI评测领域的稀缺垂直类数据集,HCB的发布也将为数据要素市场中专业评测类数据资源的规范化构建提供参考样本,推动生成式AI在文化创意、商业服务等垂直场景的落地进程。
查看The Human Creativity Benchmark (HCB)





_1769672084863.jpg)