five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

电子电气工程师学会(IEEE) 发布 M3SD: Multi-modal, Multi-scenario and Multi-language Speaker Diarization Dataset 数据集, 应用在 说话人分割、多模态数据处理 领域

五号数据雷达开源数据市场2025-06-22 07:4856
M3SD: Multi-modal, Multi-scenario and Multi-language Speaker Diarization Dataset 是 电子电气工程师学会(IEEE) 发布的数据集,于 2025-06-17 首发在 arXiv 应用于 说话人分割、多模态数据处理 领域

电子电气工程师学会(IEEE) 本次发布的数据集 M3SD: Multi-modal, Multi-scenario and Multi-language Speaker Diarization Dataset, M3SD数据集是一个多模态、多场景和多语言的说话人分割数据集,旨在解决现有数据集规模不足和深度学习模型泛化能力差的问题。该数据集来源于真实网络视频,包含了770+小时的音频和视频数据,涵盖了访谈、线上/线下会议、演讲、辩论、日常对话等多种场景,并支持中、英、日等多种语言。数据集的创建过程采用了自动化方法,结合音频和视频信息生成更准确的伪标签,并通过预训练的说话人分割模型进行迭代训练。该数据集的发布为研究说话人分割技术提供了新的数据资源,有助于提升模型的泛化能力和适应不同场景的能力。

查看M3SD: Multi-modal, Multi-scenario and Multi-language Speaker Diarization Dataset

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 电子电气工程师学会(IEEE) , IEEE(电气和电子工程师协会)是一个国际性的电子技术与信息科学领域的学术组织,致力于推动科技领域的创新和进步,拥有全球近400,000名会员。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们