布鲁诺·凯斯勒基金会 本次发布的数据集 mGeNTE, mGeNTE是一个多语言数据集,旨在支持性别中立翻译和语言建模的研究。该数据集由布鲁诺·凯斯勒基金会、博洛尼亚大学和汉堡大学的研究团队创建,扩展了现有的GeNTE语料库,涵盖了英语-意大利语、英语-德语和英语-西班牙语的语言对。数据集包含4500条句子级别的三元组,每条三元组由源语言句子、性别化目标语言句子和性别中立目标语言句子组成。数据来源于Europarl语料库,经过专家和翻译学生的精心筛选和编辑,确保了数据的高质量和自然性。该数据集的应用领域包括自动性别中立翻译、语言模型训练以及性别中立语言的重写,旨在解决多语言环境中性别偏见问题,推动更公平的语言技术发展。
Dataset card 内容:
Files and versions 内容:
关于 布鲁诺·凯斯勒基金会 , 布鲁诺·凯斯勒基金会(Fondazione Bruno Kessler)是意大利的一个研究机构,位于特伦托。该基金会专注于信息技术、材料科学、物理、数学、历史和社会科学等领域的研究,致力于推动科学和技术的发展,并与学术界和工业界保持紧密合作。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)