five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

韩国高等科学技术研究院(KAIST) 发布 Tigrinya Abusive Language Detection (TiALD) 数据集, 应用在 自然语言处理、社交媒体分析 领域

五号数据雷达开源数据市场2025-05-21 07:4435
Tigrinya Abusive Language Detection (TiALD) 是 韩国高等科学技术研究院(KAIST) 发布的数据集,于 2025-05-18 首发在 arXiv 应用于 自然语言处理、社交媒体分析 领域

韩国高等科学技术研究院(KAIST) 本次发布的数据集 Tigrinya Abusive Language Detection (TiALD), TiALD数据集是一个大规模的人工标注的多任务基准数据集,用于在低资源环境下检测提格雷尼亚社交媒体中的滥用语言。该数据集包含9位母语人士对13,717条YouTube评论的标注,这些评论来自7,373个视频,总观看量超过12亿次,涵盖51个频道。数据集采用了迭代术语聚类方法进行有效数据选择。考虑到大约64%的提格雷尼亚社交媒体内容使用罗马化转写而不是本地的吉兹文字,我们的数据集同时容纳了两种书写系统,以反映实际的语言使用。我们还在数据集中加入了对应视频的视觉内容描述,以便研究人员分析用户评论与视频内容之间的关系。我们的实验表明,在低资源环境下,小型、专业的多任务模型在滥用语言检测方面优于当前前沿模型,准确率达到86%(+7个百分点)。

查看Tigrinya Abusive Language Detection (TiALD)

README 内容: 

 

关于 韩国高等科学技术研究院(KAIST) , 韩国高等科学技术研究院(KAIST)是韩国的一所著名研究型大学,以研究和教学高科技创新而闻名,是韩国科技和工程领域的领先学府之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们