five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

墨尔本大学 发布 Multi-EuP 数据集, 应用在 多语言信息检索、公平性分析 领域

五号数据雷达开源数据市场2024-10-12 15:1722
Multi-EuP 是 墨尔本大学 发布的数据集,于 2023-11-03 首发在 arXiv 应用于 多语言信息检索、公平性分析 领域

墨尔本大学 本次发布的数据集 Multi-EuP, Multi-EuP是一个多语言基准数据集,包含从欧洲议会收集的22,000份多语言文档,涵盖24种语言。该数据集旨在研究多语言信息检索(IR)环境中的公平性,分析排名环境中的语言和人口统计偏差。数据集具有真实的多语言语料库,所有24种语言的主题都被翻译,并提供跨语言相关性判断。此外,数据集还提供与文档相关的丰富人口统计信息,便于研究人口统计偏差。该数据集适用于单语和多语IR的基准测试,并可用于探索由分词策略选择引起的语言偏差。

查看Multi-EuP

README 内容: 

 

关于 墨尔本大学 , 墨尔本大学是澳大利亚最古老和最负盛名的大学之一,位于维多利亚州墨尔本市。该校在全球大学排名中名列前茅,提供广泛的学科和研究领域,包括科学、工程、医学、社会科学和人文艺术等。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们