five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

布鲁诺·凯斯勒基金会 发布 mGeNTE 数据集, 应用在 性别中立翻译、语言建模 领域

五号数据雷达开源数据市场2025-01-18 07:4139
mGeNTE 是 布鲁诺·凯斯勒基金会 发布的数据集,于 2025-01-16 首发在 arXiv 应用于 性别中立翻译、语言建模 领域

布鲁诺·凯斯勒基金会 本次发布的数据集 mGeNTE, mGeNTE是一个多语言数据集,旨在支持性别中立翻译和语言建模的研究。该数据集由布鲁诺·凯斯勒基金会、博洛尼亚大学和汉堡大学的研究团队创建,扩展了现有的GeNTE语料库,涵盖了英语-意大利语、英语-德语和英语-西班牙语的语言对。数据集包含4500条句子级别的三元组,每条三元组由源语言句子、性别化目标语言句子和性别中立目标语言句子组成。数据来源于Europarl语料库,经过专家和翻译学生的精心筛选和编辑,确保了数据的高质量和自然性。该数据集的应用领域包括自动性别中立翻译、语言模型训练以及性别中立语言的重写,旨在解决多语言环境中性别偏见问题,推动更公平的语言技术发展。

查看mGeNTE

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 布鲁诺·凯斯勒基金会 , 布鲁诺·凯斯勒基金会(Fondazione Bruno Kessler)是意大利的一个研究机构,位于特伦托。该基金会专注于信息技术、材料科学、物理、数学、历史和社会科学等领域的研究,致力于推动科学和技术的发展,并与学术界和工业界保持紧密合作。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们