Google 本次发布的数据集 frames-benchmark, FRAMES数据集是一个综合评估数据集,旨在测试检索增强生成(RAG)系统在事实性、检索准确性和推理方面的能力。该数据集包含824个具有挑战性的多跳问题,这些问题需要从2到15篇维基百科文章中获取信息。问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。数据集还提供了每个问题的黄金答案和相关的维基百科文章。FRAMES数据集的主要特点包括测试端到端的RAG能力、需要整合来自多个来源的信息、包含复杂的推理和时间性消歧,并设计为对最先进的语言模型具有挑战性。该数据集可用于评估RAG系统性能、基准测试语言模型的事实性和推理能力,以及开发和测试多跳检索策略。
Dataset card 内容:
Files and versions 内容:
关于 Google , 谷歌是全球知名的科技公司,专注于互联网服务和产品。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)