five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

哈尔滨工业大学发布Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA)数据集,应用在古典文学、语音处理领域

五号数据雷达开源数据市场2026-04-17 11:027
Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA)是哈尔滨工业大学发布的数据集,于2026-04-13首发在arXiv应用于古典文学、语音处理领域

哈尔滨工业大学本次发布的数据集Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA),MCGA是由哈尔滨工业大学、鹏城实验室等机构联合创建的首个大规模开源古典文学音频语料库,包含22,000个样本(119小时),涵盖赋、诗、文、词、曲五种文体。数据通过专业录音志愿者采集,经双重质量校验,具有明确的版权授权。该数据集支持语音识别、语音翻译、情感标注等六项核心任务,旨在解决多模态大模型在古典文学音频领域的评估与训练瓶颈,为文化保护与人工智能交叉研究提供基础资源。

查看Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA)

README内容:

 

关于哈尔滨工业大学,哈尔滨工业大学(Harbin Institute of Technology),简称哈工大,创建于1920年,是中国著名的理工类研究型大学,隶属于工业和信息化部,以工程学著称,在航天、机器人、计算机科学等领域具有重要影响力。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们