MusicPile是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含517万个样本,约41.6亿Token,来源包括网络语料库、百科全书、音乐书籍、YouTube音乐字幕、ABC记谱法作品、数学内容与代码。数据集包含id、text和src三个字段,每段文本Token不超过2048个。MusicPile覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。
数据集地址: https://huggingface.co/datasets/m-a-p/MusicPile





_1769672084863.jpg)