香港科技大学本次发布的数据集CHASM,CHASM是由香港科技大学(广州)与奥胡斯大学联合构建的首个多模态隐蔽广告检测数据集,基于中国社交平台RedNote(小红书)的真实场景数据。该数据集包含4,992条经过严格隐私处理的高质量标注样本,涵盖图文帖文及评论,其中12.3%为隐蔽广告正例,22.6%为易混淆的非广告商品分享内容。数据通过动态质量控制框架标注,采用三阶段流程(采集-过滤-匿名化)确保合规性,并创新性引入黄金测试题与多数投票机制提升标注一致性。该数据集旨在解决社交平台中伪装成常规内容的隐蔽广告检测难题,为多模态大语言模型在内容审核领域的性能评估与优化提供基准。





_1769672084863.jpg)