five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

多伦多大学 发布 MultiMed-ST 数据集, 应用在 医疗语音翻译、多语言处理 领域

五号数据雷达开源数据市场2025-04-08 08:2436
MultiMed-ST 是 多伦多大学 发布的数据集,于 2025-04-04 首发在 arXiv 应用于 医疗语音翻译、多语言处理 领域

多伦多大学 本次发布的数据集 MultiMed-ST, MultiMed-ST是一个大规模的多语言医疗语音翻译数据集,由多伦多大学等机构创建。该数据集包含5种语言(越南语、英语、德语、法语、中文)的医疗对话语音数据,以及通过 Gemini Large Language Model 翻译的文本。数据集共有290,000条样本,是迄今为止最大的医疗机器翻译数据集,也是最大的多对多多语言语音翻译数据集。

查看MultiMed-ST

README 内容: 

 

关于 多伦多大学 , 多伦多大学是一所位于加拿大安大略省多伦多市的公立研究型大学,是加拿大最古老的大学之一,也是世界著名的研究型大学,在多个领域如医学、工程、商业等都有卓越的研究成果。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们