本次发布的数据集QUIET,QUIET数据集是一个用于评估大语言模型创意生成能力的多空白级联故事完形填空基准,由研究者Bo Zou和Chao Xu创建。该数据集包含具有完整叙事结构的文本,其中设置了10至20个空白位置,每个空白附带明确的内容约束,且空白之间存在级联依赖关系。数据规模涉及36个空白填充实例,通过自动化信息论评分协议进行客观评估。数据集的构建过程基于“校准惊喜”理论框架,将创意质量量化为约束满足度与惊喜度的乘积。该数据集主要应用于自然语言处理领域,旨在解决现有基准无法客观、自动化评估模型开放式创意生成能力的核心问题,为LLM的叙事连贯性和创造性决策能力提供诊断工具。





_1769672084863.jpg)