首页 / 开源数据市场 / 正文

多伦多大学发布 MultiMed-ST 数据集, 应用在医疗语音翻译、多语言处理领域

五号数据雷达开源数据市场2025-04-08 08:2436

MultiMed-ST 是多伦多大学发布的数据集,于 2025-04-04 首发在 arXiv 应用于医疗语音翻译、多语言处理领域

多伦多大学本次发布的数据集 MultiMed-ST, MultiMed-ST是一个大规模的多语言医疗语音翻译数据集，由多伦多大学等机构创建。该数据集包含5种语言（越南语、英语、德语、法语、中文）的医疗对话语音数据，以及通过 Gemini Large Language Model 翻译的文本。数据集共有290,000条样本，是迄今为止最大的医疗机器翻译数据集，也是最大的多对多多语言语音翻译数据集。

查看MultiMed-ST

README 内容：

关于多伦多大学 , 多伦多大学是一所位于加拿大安大略省多伦多市的公立研究型大学，是加拿大最古老的大学之一，也是世界著名的研究型大学，在多个领域如医学、工程、商业等都有卓越的研究成果。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

多伦多大学 发布 MultiMed-ST 数据集, 应用在 医疗语音翻译、多语言处理 领域

README 内容：

社区讨论

多伦多大学发布 MultiMed-ST 数据集, 应用在医疗语音翻译、多语言处理领域