首页 / 开源数据市场 / 正文

Yandex 发布 Yambda-5B 数据集, 应用在音乐流媒体、推荐系统领域

五号数据雷达开源数据市场2025-05-30 07:1874

Yambda-5B 是 Yandex 发布的数据集,于 2025-05-28 首发在 arXiv 应用于音乐流媒体、推荐系统领域

Yandex 本次发布的数据集 Yambda-5B, Yambda-5B是一个大规模的开放数据集，来源于Yandex.Music音乐流媒体平台。该数据集包含了来自100万用户在939万首曲目上的47.9亿次用户-项目交互。数据集包括两种主要的交互类型：隐式反馈（收听事件）和显式反馈（喜欢、不喜欢、取消喜欢和取消不喜欢）。此外，我们还为大多数曲目提供了音频嵌入，这些嵌入由在音频频谱图上训练的卷积神经网络生成。Yambda-5B的一个关键区别特征是包含了is_organic标志，该标志将有机用户行为与推荐驱动的事件分开。这种区分对于开发和评估机器学习算法至关重要，因为Yandex.Music依赖于推荐系统来为用户个性化曲目选择。为了支持严格的基准测试，我们引入了一个基于全局时间分割的评估协议，允许在接近真实世界使用条件的情况下评估推荐算法。我们报告了使用各种评估指标的标准基线（ItemKNN、iALS）和先进模型（SANSA、SASRec）的基准结果。通过向社区发布Yambda-5B，我们旨在提供一个易于访问的工业规模资源，以推动研究、促进创新，并在推荐系统中促进可重复的结果。

查看Yambda-5B

Dataset card 内容：

Files and versions 内容：

关于 Yandex , Yandex是俄罗斯最大的科技公司之一，主要提供互联网相关的服务和产品，包括搜索引擎、在线广告、地图服务、电子邮件和云计算等。Yandex的研究部门致力于人工智能、机器学习和大数据分析等前沿技术的研发。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Yandex 发布 Yambda-5B 数据集, 应用在 音乐流媒体、推荐系统 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

Yandex 发布 Yambda-5B 数据集, 应用在音乐流媒体、推荐系统领域