five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

HiTZ zentroa发布flores_plus_gender数据集,应用在机器翻译、性别偏见领域

五号数据雷达开源数据市场2026-03-11 03:2917
flores_plus_gender是HiTZ zentroa发布的数据集,于2026-03-10首发在HuggingFace应用于机器翻译、性别偏见领域

HiTZ zentroa本次发布的数据集flores_plus_gender,FLORES+Gender数据集基于Meta开发的FLORES+基准测试,旨在评估机器翻译系统中的性别偏见。与通常从无性别语言翻译到有性别语言的方法不同,该数据集采用反向方法,分析从有性别语言(西班牙语或英语)翻译到无性别语言(巴斯克语)时,源语句的主要语法性别是否影响翻译质量。数据集为每种源语言提供两种对比版本:一种包含所有句子为男性形式,另一种为女性形式。西班牙语集包含363个带有性别参考的句子,英语集包含155个。所有句子均经过手动调整以保持语义等效。每个实例还手动标注了可能影响翻译行为的三个语言和上下文因素:多实体(ME)、专有名词(PN)和无标记男性(UM,仅西班牙语)。数据集适用于评估源语言语法性别对翻译质量的影响。

查看flores_plus_gender

关于HiTZ zentroa,HiTZ zentroa是一家专注于人工智能和自然语言处理的研究机构。

关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们