首页 / 开源数据市场 / 正文

牛津大学发布 LRS3-TED 数据集, 应用在音频-视觉语音识别、唇读领域

五号数据雷达开源数据市场2024-10-13 06:58309

LRS3-TED 是牛津大学发布的数据集,于 2018-10-28 首发在 arXiv 应用于音频-视觉语音识别、唇读领域

牛津大学本次发布的数据集 LRS3-TED, LRS3-TED数据集是由牛津大学视觉几何组创建的大规模多模态数据集，主要用于视觉和音频-视觉语音识别。该数据集包含超过400小时的TED和TEDx视频中的面部轨迹，以及相应的字幕和单词对齐边界。数据集内容丰富，包含5594个视频，每个视频的面部轨迹以224×224分辨率和25 fps帧率提供。数据集的创建过程涉及多阶段自动化管道，用于生成大规模的音频-视觉语音识别数据。LRS3-TED数据集广泛应用于唇读、音频-视觉语音识别等领域，旨在解决缺乏大规模公共基准数据集的问题。

查看LRS3-TED

关于牛津大学 , 牛津大学是位于英国牛津市的一所世界顶尖的公立研究型大学，成立于1096年，是英语世界中最古老的大学，也是世界上现存第二古老的高等教育机构。牛津大学在多个学科领域都有卓越的学术成就和影响力，尤其在人文科学、社会科学、自然科学和医学等领域享有盛誉。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

牛津大学 发布 LRS3-TED 数据集, 应用在 音频-视觉语音识别、唇读 领域

社区讨论

牛津大学发布 LRS3-TED 数据集, 应用在音频-视觉语音识别、唇读领域