格勒诺布尔-阿尔卑斯大学 本次发布的数据集 wikIR78k, wikIRS78k, wikIR78k和wikIRS78k是由格勒诺布尔-阿尔卑斯大学的研究团队基于维基百科创建的两个大规模英文信息检索数据集。这两个数据集均包含78,628个查询和超过300万(查询,相关文档)对,旨在解决深度学习模型在信息检索领域因数据量不足而表现不佳的问题。数据集的创建过程涉及从维基百科文章中提取信息,构建查询和文档,并通过特定的算法确定文档与查询的相关性。这些数据集特别适用于训练和评估深度文本匹配模型,尤其是在处理短而精确的查询(wikIR78k)和长而噪声较多的查询(wikIRS78k)时的表现。
关于 格勒诺布尔-阿尔卑斯大学 , 格勒诺布尔-阿尔卑斯大学(Université Grenoble Alpes)是法国一所著名的综合性大学,位于法国东南部的格勒诺布尔市。该大学在科学、工程、社会科学和人文科学等领域具有卓越的研究和教学声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)