Yandex 本次发布的数据集 Yambda-5B, Yambda-5B是一个大规模的开放数据集,来源于Yandex.Music音乐流媒体平台。该数据集包含了来自100万用户在939万首曲目上的47.9亿次用户-项目交互。数据集包括两种主要的交互类型:隐式反馈(收听事件)和显式反馈(喜欢、不喜欢、取消喜欢和取消不喜欢)。此外,我们还为大多数曲目提供了音频嵌入,这些嵌入由在音频频谱图上训练的卷积神经网络生成。Yambda-5B的一个关键区别特征是包含了is_organic标志,该标志将有机用户行为与推荐驱动的事件分开。这种区分对于开发和评估机器学习算法至关重要,因为Yandex.Music依赖于推荐系统来为用户个性化曲目选择。为了支持严格的基准测试,我们引入了一个基于全局时间分割的评估协议,允许在接近真实世界使用条件的情况下评估推荐算法。我们报告了使用各种评估指标的标准基线(ItemKNN、iALS)和先进模型(SANSA、SASRec)的基准结果。通过向社区发布Yambda-5B,我们旨在提供一个易于访问的工业规模资源,以推动研究、促进创新,并在推荐系统中促进可重复的结果。
Dataset card 内容:
Files and versions 内容:
关于 Yandex , Yandex是俄罗斯最大的科技公司之一,主要提供互联网相关的服务和产品,包括搜索引擎、在线广告、地图服务、电子邮件和云计算等。Yandex的研究部门致力于人工智能、机器学习和大数据分析等前沿技术的研发。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)