随着语音社交、直播连麦、播客、在线语音交互等数字业态的快速普及,基于语音维度的隐性内容风险逐渐成为内容治理的难点——大量带有嘲讽、侮辱、胁迫等恶意属性的语音内容仅通过语调、重音、情绪等副语言线索传递,文本转写后无明显违规特征,现有基于文本数据集训练的审核模型难以识别。在此背景下,浙江大学联合相关机构构建的国内首个面向副语言感知的大规模有毒语音数据集ToxiAlert-Bench正式对外发布,该数据集已于2026年5月15日首发于学术平台arXiv。
作为专门针对语音维度毒性检测打造的数据集,ToxiAlert-Bench共包含32561个音频样本,总时长达到60.82小时,其中覆盖19745个真实场景采集的语音样本和12816个高仿真合成样本,全量样本标注了7个主要毒性类别和20个细粒度标签。与行业现有同类数据集相比,ToxiAlert-Bench最大的创新点在于采用双管道构建框架,整合多模态模型自动标注与人工交叉验证流程,首次对语音毒性的来源进行了明确标注,区分了文本来源毒性、副语言来源毒性以及双重来源毒性三类,解决了过往语音毒性检测数据集只关注文本内容、忽略副语言线索的核心缺陷。
从应用价值来看,该数据集可广泛应用于多场景的有毒语音检测技术研发:在数字内容治理领域,可支撑语音社交平台、直播平台、在线教育场景的内容审核系统升级,识别传统文本审核无法捕捉的隐性言语霸凌、恶意嘲讽、语音骚扰等违规内容,助力完善未成年人网络保护、网络暴力治理的技术防线;在副语言分析领域,可为情绪识别、人机交互优化、社会心理学语音研究等方向提供基础数据支撑;此外,该数据集还可用于多模态大模型的训练优化,提升大模型对语音隐含情绪、隐性恶意表达的识别能力,进一步完善多模态AI的内容安全对齐能力。
作为数据要素市场中垂直场景的高质量标注数据集,ToxiAlert-Bench的发布填补了国内副语言感知有毒语音检测领域的数据集空白,对于推动语音内容安全技术落地、完善数字内容生态治理体系、支撑多模态AI技术的场景化落地均具有重要的行业意义。
首页 / 开源数据市场 / 正文
浙大发布国内首个副语言感知有毒语音数据集ToxiAlert-Bench 填补语音内容审核数据缺口
五号数据雷达开源数据市场2026-05-19 05:5717
2026年5月15日,浙江大学联合相关机构研发的国内首个面向副语言感知的大规模有毒语音数据集ToxiAlert-Bench正式在arXiv首发,该数据集填补了现有文本主导的有毒内容检测数据集的空白,可为有毒语音检测、副语言分析、多模态内容审核等领域的技术研发提供核心数据支撑。

社区讨论
近期热门




_1769672084863.jpg)