首页 / 开源数据市场 / 正文

韩国高等科学技术研究院（KAIST）发布 Tigrinya Abusive Language Detection (TiALD) 数据集, 应用在自然语言处理、社交媒体分析领域

五号数据雷达开源数据市场2025-05-21 07:4435

Tigrinya Abusive Language Detection (TiALD) 是韩国高等科学技术研究院（KAIST）发布的数据集,于 2025-05-18 首发在 arXiv 应用于自然语言处理、社交媒体分析领域

韩国高等科学技术研究院（KAIST）本次发布的数据集 Tigrinya Abusive Language Detection (TiALD), TiALD数据集是一个大规模的人工标注的多任务基准数据集，用于在低资源环境下检测提格雷尼亚社交媒体中的滥用语言。该数据集包含9位母语人士对13,717条YouTube评论的标注，这些评论来自7,373个视频，总观看量超过12亿次，涵盖51个频道。数据集采用了迭代术语聚类方法进行有效数据选择。考虑到大约64%的提格雷尼亚社交媒体内容使用罗马化转写而不是本地的吉兹文字，我们的数据集同时容纳了两种书写系统，以反映实际的语言使用。我们还在数据集中加入了对应视频的视觉内容描述，以便研究人员分析用户评论与视频内容之间的关系。我们的实验表明，在低资源环境下，小型、专业的多任务模型在滥用语言检测方面优于当前前沿模型，准确率达到86%（+7个百分点）。

查看Tigrinya Abusive Language Detection (TiALD)

README 内容：

关于韩国高等科学技术研究院（KAIST） , 韩国高等科学技术研究院（KAIST）是韩国的一所著名研究型大学，以研究和教学高科技创新而闻名，是韩国科技和工程领域的领先学府之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

韩国高等科学技术研究院（KAIST） 发布 Tigrinya Abusive Language Detection (TiALD) 数据集, 应用在 自然语言处理、社交媒体分析 领域

README 内容：

社区讨论

韩国高等科学技术研究院（KAIST）发布 Tigrinya Abusive Language Detection (TiALD) 数据集, 应用在自然语言处理、社交媒体分析领域