首页 / 开源数据市场 / 正文

哈尔滨工业大学发布Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA)数据集,应用在古典文学、语音处理领域

五号数据雷达开源数据市场2026-04-17 11:027

Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA)是哈尔滨工业大学发布的数据集,于2026-04-13首发在arXiv应用于古典文学、语音处理领域

哈尔滨工业大学本次发布的数据集Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA),MCGA是由哈尔滨工业大学、鹏城实验室等机构联合创建的首个大规模开源古典文学音频语料库，包含22,000个样本（119小时），涵盖赋、诗、文、词、曲五种文体。数据通过专业录音志愿者采集，经双重质量校验，具有明确的版权授权。该数据集支持语音识别、语音翻译、情感标注等六项核心任务，旨在解决多模态大模型在古典文学音频领域的评估与训练瓶颈，为文化保护与人工智能交叉研究提供基础资源。

查看Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA)

README内容：

关于哈尔滨工业大学,哈尔滨工业大学（Harbin Institute of Technology），简称哈工大，创建于1920年，是中国著名的理工类研究型大学，隶属于工业和信息化部，以工程学著称，在航天、机器人、计算机科学等领域具有重要影响力。

关于arXiv,全球最大的预印本学术论文数据库，涵盖物理、数学、计算机科学等多个学科领域。

社区讨论

近期热门