牛津大学 本次发布的数据集 LRS3-TED, LRS3-TED数据集是由牛津大学视觉几何组创建的大规模多模态数据集,主要用于视觉和音频-视觉语音识别。该数据集包含超过400小时的TED和TEDx视频中的面部轨迹,以及相应的字幕和单词对齐边界。数据集内容丰富,包含5594个视频,每个视频的面部轨迹以224×224分辨率和25 fps帧率提供。数据集的创建过程涉及多阶段自动化管道,用于生成大规模的音频-视觉语音识别数据。LRS3-TED数据集广泛应用于唇读、音频-视觉语音识别等领域,旨在解决缺乏大规模公共基准数据集的问题。
关于 牛津大学 , 牛津大学是位于英国牛津市的一所世界顶尖的公立研究型大学,成立于1096年,是英语世界中最古老的大学,也是世界上现存第二古老的高等教育机构。牛津大学在多个学科领域都有卓越的学术成就和影响力,尤其在人文科学、社会科学、自然科学和医学等领域享有盛誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)