本次发布的数据集 SexTok, 该数据集是一个多模态的数据集,由抖音视频组成,这些视频被标记为性暗示、性教育内容或非以上两者,旨在解决区分这类内容所面临的挑战。数据集不仅包含了类别标签和性别表达的手动注释,而且这些注释之间有高度的共识,这一共识通过Cohens Kappa评分得到了验证。此外,数据集还包含了转录音频,其单词错误率较低。该数据集规模包含1000个抖音视频链接,其任务是实现对抖音视频的分类,具体分为性暗示、性教育和其他类别。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)