当前,全球文化遗产数字化进程持续提速,光学音乐识别(OMR)作为实现历史乐谱自动化转录、存量音乐文化资源数字化存档的核心技术,长期面临真实训练数据稀缺的行业痛点:现有公开数据集多以打印乐谱、近现代规范手写乐谱为主,缺乏覆盖不同历史时期、不同创作风格的历史手写乐谱标注数据,导致OMR模型在处理档案馆、图书馆馆藏的老旧手写乐谱时识别准确率偏低,大量珍贵音乐文献只能依赖高成本、低效率的人工转录,难以实现规模化数字存档。在此背景下,巴塞罗那自治大学联合计算机视觉中心、摩拉维亚图书馆及多家欧洲文化遗产机构共同打造的MusiCorpus数据集正式发布,首发于2026年5月18日上线的arXiv平台,直指OMR领域的核心数据短板。
MusiCorpus是目前公开领域规模较大的历史手写乐谱专用数据集,共收录1309页源自欧洲多家档案机构的原始乐谱扫描图像,覆盖管弦乐谱、分谱、钢琴谱等多元乐谱类型,配套提供标准MusicXML转录文本与符号级标注,累计标注音乐符号达数十万级。为保障数据的多样性与学术严谨性,项目组建立了专家手工标注与标准化编码的双重校验流程,所有标注内容均经过音乐学专业人士审核,可适配不同技术路线的OMR模型训练需求。
从应用价值来看,该数据集首先可用于训练和评估端到端、基于目标检测的各类光学音乐识别系统,帮助算法模型适配不同年代、不同手写风格的历史乐谱识别场景,大幅提升OMR技术的落地可用性;其次可为全球文化遗产机构的历史乐谱数字化项目提供技术支撑,依托基于该数据集训练的自动化转录工具,可将历史乐谱的数字化效率提升数倍,降低人工转录成本,加快珍贵音乐文献的数字存档进程;此外,标准化标注的批量历史乐谱数据,也可为音乐学研究提供新的研究路径,学者可基于该数据集开展不同时期音乐创作技法演变、区域音乐文化特征分析等交叉研究,后续经过二次加工的数字乐谱资源,还可应用于公共文化服务、数字音乐文创等领域,为历史音乐资源的大众传播提供载体。
本次MusiCorpus数据集的发布,也为跨领域文化类公共数据集的建设提供了可参考的协作范式:通过高校科研团队、技术研发机构、文化遗产馆藏单位的多方协作,既保障了数据集的技术规范性,也确保了数据的文化价值与学术严谨性,为数据要素在文化科技赛道的落地应用提供了典型样本,将进一步推动音乐文化遗产数字化领域的技术迭代与产业创新。
首页 / 开源数据市场 / 正文
西班牙巴塞罗那自治大学发布MusiCorpus大型历史手写乐谱数据集 填补光学音乐识别领域训练数据空白
五号数据雷达开源数据市场2026-05-20 05:4613
巴塞罗那自治大学联合计算机视觉中心、摩拉维亚图书馆等机构于2026年5月18日在arXiv平台首发MusiCorpus数据集,该数据集是当前标注规范、覆盖类型全面的历史手写乐谱公开数据集,将为光学音乐识别技术迭代、历史音乐文献数字化保护及音乐学交叉研究提供关键数据支撑。

社区讨论
近期热门




_1769672084863.jpg)