本次发布的数据集 Blog Authorship Corpus, 该数据集包含了19,320位博主撰写的帖子,共计681,288篇,字数超过1亿4千万,用于根据博主的文字来预测其年龄和性别。数据集按年龄组(10多岁、20多岁、30多岁)划分,男女博主分布均衡。每篇博文都由一个唯一的博主ID标识,且数据集中至少包含200个常见英语单词的实例。规模上,数据集涵盖了来自19,320位博主的681,288篇帖子,任务旨在进行年龄与性别的预测。
关于 , 国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)