电子电气工程师学会(IEEE) 本次发布的数据集 M3SD: Multi-modal, Multi-scenario and Multi-language Speaker Diarization Dataset, M3SD数据集是一个多模态、多场景和多语言的说话人分割数据集,旨在解决现有数据集规模不足和深度学习模型泛化能力差的问题。该数据集来源于真实网络视频,包含了770+小时的音频和视频数据,涵盖了访谈、线上/线下会议、演讲、辩论、日常对话等多种场景,并支持中、英、日等多种语言。数据集的创建过程采用了自动化方法,结合音频和视频信息生成更准确的伪标签,并通过预训练的说话人分割模型进行迭代训练。该数据集的发布为研究说话人分割技术提供了新的数据资源,有助于提升模型的泛化能力和适应不同场景的能力。
查看M3SD: Multi-modal, Multi-scenario and Multi-language Speaker Diarization Dataset
Dataset card 内容:
Files and versions 内容:
关于 电子电气工程师学会(IEEE) , IEEE(电气和电子工程师协会)是一个国际性的电子技术与信息科学领域的学术组织,致力于推动科技领域的创新和进步,拥有全球近400,000名会员。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)