HiTZ zentroa本次发布的数据集flores_plus_gender,FLORES+Gender数据集基于Meta开发的FLORES+基准测试,旨在评估机器翻译系统中的性别偏见。与通常从无性别语言翻译到有性别语言的方法不同,该数据集采用反向方法,分析从有性别语言(西班牙语或英语)翻译到无性别语言(巴斯克语)时,源语句的主要语法性别是否影响翻译质量。数据集为每种源语言提供两种对比版本:一种包含所有句子为男性形式,另一种为女性形式。西班牙语集包含363个带有性别参考的句子,英语集包含155个。所有句子均经过手动调整以保持语义等效。每个实例还手动标注了可能影响翻译行为的三个语言和上下文因素:多实体(ME)、专有名词(PN)和无标记男性(UM,仅西班牙语)。数据集适用于评估源语言语法性别对翻译质量的影响。
关于HiTZ zentroa,HiTZ zentroa是一家专注于人工智能和自然语言处理的研究机构。
关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。





_1769672084863.jpg)