多伦多大学 本次发布的数据集 MultiMed-ST, MultiMed-ST是一个大规模的多语言医疗语音翻译数据集,由多伦多大学等机构创建。该数据集包含5种语言(越南语、英语、德语、法语、中文)的医疗对话语音数据,以及通过 Gemini Large Language Model 翻译的文本。数据集共有290,000条样本,是迄今为止最大的医疗机器翻译数据集,也是最大的多对多多语言语音翻译数据集。
README 内容:
关于 多伦多大学 , 多伦多大学是一所位于加拿大安大略省多伦多市的公立研究型大学,是加拿大最古老的大学之一,也是世界著名的研究型大学,在多个领域如医学、工程、商业等都有卓越的研究成果。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)