德黑兰高等研究院 本次发布的数据集 DIFAIR, DIFAIR是一个手工策划的语言建模数据集,旨在同时测量预训练语言模型中的公平性和性能。该数据集包含2506个精心筛选的性别特定和性别中性句子,主要从英文维基百科和Reddit社区中抽取。数据集的创建过程包括从原始文本中抽取句子,然后根据性别相关性进行分类和标注。DIFAIR数据集的应用领域主要集中在评估和减少语言模型中的性别偏见,同时确保模型能够保留和正确使用性别相关的事实信息。
README 内容:
关于 德黑兰高等研究院 , 德黑兰高等研究院(TeIAS)是伊朗的一所顶尖研究机构,专注于基础科学和应用科学的研究与教育。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)