five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

香港科技大学发布CHASM数据集,应用在隐蔽广告检测、多模态内容审核领域

五号数据雷达开源数据市场2026-04-24 04:5712
CHASM是香港科技大学发布的数据集,于2026-04-22首发在arXiv应用于隐蔽广告检测、多模态内容审核领域

香港科技大学本次发布的数据集CHASM,CHASM是由香港科技大学(广州)与奥胡斯大学联合构建的首个多模态隐蔽广告检测数据集,基于中国社交平台RedNote(小红书)的真实场景数据。该数据集包含4,992条经过严格隐私处理的高质量标注样本,涵盖图文帖文及评论,其中12.3%为隐蔽广告正例,22.6%为易混淆的非广告商品分享内容。数据通过动态质量控制框架标注,采用三阶段流程(采集-过滤-匿名化)确保合规性,并创新性引入黄金测试题与多数投票机制提升标注一致性。该数据集旨在解决社交平台中伪装成常规内容的隐蔽广告检测难题,为多模态大语言模型在内容审核领域的性能评估与优化提供基准。

查看CHASM

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们