five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

马萨诸塞大学安姆斯特分校 发布 CRUMB 数据集, 应用在 信息检索、评估套件 领域

五号数据雷达开源数据市场2025-11-24 18:3723
CRUMB 是 马萨诸塞大学安姆斯特分校 发布的数据集,于 2025-09-09 首发在 arXiv 应用于 信息检索、评估套件 领域

马萨诸塞大学安姆斯特分校 本次发布的数据集 CRUMB, CRUMB是一个由八个多样化的复杂检索任务组成的评估套件,这些任务都是从现有数据集中精心挑选的。每个任务都有多个方面,每个查询都表达了独特的方式,以及额外的数据集特定特征,使得这个集合多样化且全面,重点关注真实的检索环境。这些任务包括针对电影检索的舌尖查询、针对科学论文检索的多方面查询、针对实体检索的基于集合的逻辑查询、针对法规检索的特定于州的法律问题、针对定理检索的多约束数学问题查询、具有相关网页的多样化的Stack Exchange问题、使用患者病史作为查询的临床试验搜索,以及使用多约束代码问题作为查询和代码片段作为文档的代码检索。这些任务的一些独特特征包括查询和文档之间不同的词汇、高度专业的术语和数值比较。虽然我们展示了多种类型的具有复杂查询的检索任务,但总会有一些未被考虑到的任务。我们的目标是涵盖几种不同的变化,并包含可能影响检索质量的其它特征,以便全面了解检索模型在复杂检索任务上的表现。为了促进最佳的检索性能,我们使用统一的markdown格式来处理文档,并在分块的版本中包含标题,以提供上下文。我们的格式允许未来研究使用文档结构的检索模型,并为检索模型提供重要的上下文,以便它们能够良好地执行。我们相信,将这些数据集统一起来,以便能够简单地测试检索系统在各种复杂的任务上的表现,具有重要的价值。我们选择的原始数据集和最终集合中使用的子数据集反映了在选择真实检索任务方面的重大投资,这些任务具有高质量的关联性判断。此外,原始数据集中的许多数据集缺乏适合现代检索模型的标准版本(例如,文档以XML格式出现,其中包含不必要的字段),而我们版本的数据集已经过处理,更适合现代检索模型。使用CRUMB,我们评估了一系列多样化的、具有代表性的、最先进的神经检索模型,以评估它们在复杂任务上的表现,并从中得出关于当前模型在何处最困难以及最佳模型共享哪些特征的几个见解。我们发现,即使是最先进的模型在这些复杂任务上也表现不佳,所有任务中最好的平均nDCG@10仅为0.346,R@100仅为0.587。我们发现,当查询和文档之间的语义和关键词重叠较低或此类重叠是相关性的弱信号时,模型往往难以在排名靠前的文档上获得精确度指标。例如,在舌尖检索任务中,查询通常具有最小的术语重叠,因此具有最低的nDCG值。SetOps任务中的查询具有基于集合的操作,例如“和”和“非”,以实体页面作为文档,具有所有基线模型中最低的最大nDCG。由于查询中的基于集合的操作,通常具有相关术语或语义的文档要么不相关,要么仅部分相关。这些观察结果对表现最佳的模型是正确的,而一般来说,在数据集与常见的检索训练数据集存在显着差异时,较弱的模型会表现不佳。例如,定理检索和代码检索都具有与常见检索模型非常不同的文档词汇表,并且看到较不强大模型的性能较差。我们发现,模型性能最受到四个因素的影响:(1)模型遵循指令的能力(2)模型的大小(3)模型所训练的培训数据集的多样性和难度(4)所使用的基模型。使用基于LLM的查询重写技术的实验表明,重写往往会损害表现更好的模型,同时为表现较弱的模型带来显着的改进。这一发现表明,至少在当前的先进重写技术中,查询重写对提高复杂任务性能的效用是有限的。总的来说,这项工作的主要贡献包括:(1)构建由八个多样化复杂检索任务组成的复杂检索评估套件(2)对广泛的顶级检索模型进行基准测试,以揭示它们在复杂任务上的表现(3)分析表现最佳模型具有哪些品质,使它们能够在复杂任务上表现良好(4)分析哪些数据特征对模型性能的影响最大。

查看CRUMB

关于 马萨诸塞大学安姆斯特分校 , 马萨诸塞大学安姆斯特分校(University of Massachusetts Amherst)是一所位于美国马萨诸塞州安姆斯特的公立研究型大学,是马萨诸塞大学系统的旗舰学校,提供广泛的本科和研究生课程。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们