five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

东北大学 发布 术语增强语音识别与翻译数据集 数据集, 应用在 语音识别、机器翻译 领域

五号数据雷达开源数据市场2025-08-28 13:3116
术语增强语音识别与翻译数据集 是 东北大学 发布的数据集,于 2025-08-26 首发在 arXiv 应用于 语音识别、机器翻译 领域

东北大学 本次发布的数据集 术语增强语音识别与翻译数据集, 该数据集旨在支持语音识别和翻译任务中的术语干预研究,通过重新利用实体识别(NER)数据集中的实体作为术语,并使用MegaTTS生成相应的语音数据,以及从LibriSpeech和Aishell-2数据集中提取特定词汇或短语作为术语,从而构建了一个用于术语增强语音识别与翻译任务的专用数据集。该数据集包含中文和英文数据,并通过ComMT术语翻译测试集进行评估。

查看术语增强语音识别与翻译数据集

README 内容: 

 

关于 东北大学 , 东北大学是中国的一所综合性大学,位于辽宁省沈阳市。学校成立于1923年,是教育部直属的全国重点大学,也是国家“211工程”和“985工程”的首批重点建设高校之一。_simple

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们