five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

俄斯科尔科沃研究院发布超2万小时PianoCoRe钢琴数据集 填补音乐AIGC训练标准化资源空白

五号数据雷达开源数据市场2026-05-10 08:298
俄罗斯斯科尔科沃科学技术研究院于2026年5月8日在预印本平台arXiv首发大规模钢琴MIDI数据集PianoCoRe,该数据集整合多源钢琴演奏数据总量超2.1万小时,针对钢琴表现力建模领域长期存在的训练数据分散、质量参差、对齐度不足的痛点打造,为音乐信息检索、AI钢琴演奏生成等音乐科技场景提供标准化训练基底。

近年来,AIGC技术加速向文化创意垂直场景渗透,AI作曲、智能音乐教育、虚拟演奏等赛道进入快速发展期,但钢琴类AI应用的训练长期面临核心痛点:公开数据集规模有限、来源分散质量参差、演奏记录与专业乐谱对齐度不足,严重制约了钢琴表现力建模、AI演奏生成的效果上限,行业对大规模标准化钢琴训练数据集的需求日益迫切。在此背景下,俄罗斯国家级科创机构斯科尔科沃科学技术研究院于2026年5月8日在预印本平台arXiv正式发布了专为音乐AI场景打造的大规模钢琴MIDI数据集PianoCoRe,为行业发展提供了重要的资源支撑。

据公开披露信息显示,PianoCoRe是目前全球规模最大的公开钢琴MIDI数据集之一,整合了多个主流开源钢琴数据集的优质内容,覆盖483位作曲家的5625首经典及原创作品,累计收录250046条不同风格的演奏记录,总时长达到21763小时。为适配不同场景的差异化训练需求,该数据集采用分级架构设置了四个层级子集:面向大模型预训练场景的完整混合源子集PianoCoRe-C、经过去重质检、数据精度更高的通用训练子集PianoCoRe-B、实现演奏记录与专业乐谱对齐的PianoCoRe-A,以及精度最高的高质量对齐子集PianoCoRe-A*,其中仅音符对齐子集就包含157207条演奏记录与1591份专业乐谱的精确对应关系,解决了过往同类数据集普遍存在的“有演奏无乐谱、有乐谱无标准演奏参考”的问题。

为保障多源数据的一致性与标注精度,PianoCoRe的数据来源同时覆盖传感器钢琴原生录制、专业音频转录两大渠道,并通过研究院独创的RAScoP对齐管道完成时序噪声优化,大幅降低了多源数据合并时的节奏偏差、音符错位问题,能够精准还原不同演奏者对同一曲目在力度控制、节奏处理、情感表达上的差异化特征,为模型学习钢琴演奏的“人文表现力”提供了充足的细粒度特征样本。

从落地价值来看,该数据集的发布直指钢琴AI领域长期存在的训练数据痛点,可广泛应用于多个音乐科技场景:在钢琴表现力建模领域,研究人员可基于对齐的演奏与乐谱数据,训练模型识别、复刻不同流派、不同演奏家的风格特征,解决过往AI演奏“机械化、无情感”的普遍问题;在AI钢琴演奏生成领域,该数据集可为模型提供大规模的训练素材,支撑从乐谱自动生成高表现力演奏音频、AI原创钢琴作品生成等需求;在音乐信息检索、智能音乐教育领域,该数据集还可用于开发曲目自动识别、演奏智能纠错、个性化演奏风格推荐等功能,为智能钢琴、在线音乐教育产品的迭代提供技术支撑。作为文化科技领域垂直类高质量数据集的典型代表,PianoCoRe的发布也为全球数据要素市场的垂直领域资源建设提供了参考,进一步推动AIGC技术向文化创意场景的落地渗透。

查看PianoCoRe

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们