林茨大学本次发布的数据集MAV-Celeb,MAV-Celeb是由林茨大学等机构联合构建的多模态说话人识别数据集,包含YouTube访谈、脱口秀等场景下的双语(英语-乌尔都语)音频-视觉样本。数据集包含4039个英语训练样本和9304个乌尔都语训练样本,每个样本均包含人脸图像(.jpg)和语音片段(.wav)的成对数据。数据通过预训练模型提取特征,并采用分层结构按模态、身份和语言组织。该数据集旨在解决多模态说话人识别中的模态缺失和跨语言泛化问题,为生物识别、媒体分析等领域提供基准支持。
关于林茨大学,林茨大学(Johannes Kepler University Linz)是奥地利的一所公立大学,位于上奥地利州首府林茨市。该校成立于1966年,以天文学家约翰内斯·开普勒命名,是奥地利领先的技术与社会科学大学之一,提供广泛的本科、硕士和博士课程。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)