本次发布的数据集 genter, GENTER数据集是一个基于BookCorpus的过滤版本,专门包含名字与其正确第三人称单数代词(he/she)关联的句子。这些句子被转换为模板句子(masked),包含两个模板键:[NAME]和[PRONOUN]。该数据集可用于生成不同名字的句子,并插入正确的代词。数据集的结构包括原始文本、模板文本、性别标签、原始名字、原始代词和代词出现次数等字段。数据集的创建目的是为了训练一个性别偏见模型(GRADIEND模型),以评估与性别相关的梯度信息。数据集的来源是BookCorpus,经过过滤和提取模板结构生成。数据集的创建过程包括过滤BookCorpus的条目,确保每个句子包含至少50个字符、一个名字、正确的代词,并且排除了其他名字、反身代词、所有格代词和性别名词。最终数据集包含83772个句子,并通过BERT模型进一步筛选,确保代词预测的准确性。数据集被分为训练集(87.5%)、验证集(2.5%)和测试集(10%)。
Dataset card 内容:
Files and versions 内容:
关于 , 国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)