墨尔本大学 本次发布的数据集 Multi-EuP, Multi-EuP是一个多语言基准数据集,包含从欧洲议会收集的22,000份多语言文档,涵盖24种语言。该数据集旨在研究多语言信息检索(IR)环境中的公平性,分析排名环境中的语言和人口统计偏差。数据集具有真实的多语言语料库,所有24种语言的主题都被翻译,并提供跨语言相关性判断。此外,数据集还提供与文档相关的丰富人口统计信息,便于研究人口统计偏差。该数据集适用于单语和多语IR的基准测试,并可用于探索由分词策略选择引起的语言偏差。
README 内容:
关于 墨尔本大学 , 墨尔本大学是澳大利亚最古老和最负盛名的大学之一,位于维多利亚州墨尔本市。该校在全球大学排名中名列前茅,提供广泛的学科和研究领域,包括科学、工程、医学、社会科学和人文艺术等。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)