five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

德黑兰高等研究院 发布 DIFAIR 数据集, 应用在 语言模型、性别偏见 领域

五号数据雷达开源数据市场2024-10-13 15:2073
DIFAIR 是 德黑兰高等研究院 发布的数据集,于 2023-10-22 首发在 arXiv 应用于 语言模型、性别偏见 领域

德黑兰高等研究院 本次发布的数据集 DIFAIR, DIFAIR是一个手工策划的语言建模数据集,旨在同时测量预训练语言模型中的公平性和性能。该数据集包含2506个精心筛选的性别特定和性别中性句子,主要从英文维基百科和Reddit社区中抽取。数据集的创建过程包括从原始文本中抽取句子,然后根据性别相关性进行分类和标注。DIFAIR数据集的应用领域主要集中在评估和减少语言模型中的性别偏见,同时确保模型能够保留和正确使用性别相关的事实信息。

查看DIFAIR

README 内容: 

 

关于 德黑兰高等研究院 , 德黑兰高等研究院(TeIAS)是伊朗的一所顶尖研究机构,专注于基础科学和应用科学的研究与教育。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们