five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Bruno Kessler基金会 发布 MuST-Cinema 数据集, 应用在 语音翻译、字幕翻译 领域

五号数据雷达开源数据市场2024-10-13 12:2450
MuST-Cinema 是 Bruno Kessler基金会 发布的数据集,于 2020-02-25 首发在 arXiv 应用于 语音翻译、字幕翻译 领域

Bruno Kessler基金会 本次发布的数据集 MuST-Cinema, MuST-Cinema是一个多语言语音翻译语料库,由Bruno Kessler基金会创建,包含音频、转录和翻译三元组,特别标注了字幕断点。该数据集解决了现有字幕语料库缺乏源语言音频对齐和字幕断点信息的问题,适用于训练神经机器翻译系统,以自动分割句子为字幕序列。MuST-Cinema的应用领域包括提高字幕翻译的效率和质量,减少人工工作量和相关成本。

查看MuST-Cinema

关于 Bruno Kessler基金会 , Bruno Kessler基金会(Fondazione Bruno Kessler,简称FBK)是意大利特伦托的一个研究和创新中心,专注于信息技术、社会科学和人文学科的研究。该基金会成立于1991年,以意大利物理学家Bruno Kessler的名字命名,致力于推动科学和技术的发展,并在多个领域进行前沿研究。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们