Компания Яндекс анонсировала выпуск Yambda-5B — крупнейшего в мире открытого датасета для обучения рекомендательных систем. Состоящий из 4,79 миллиарда взаимодействий пользователей с 9,39 миллионами музыкальных треков, Yambda-5B предоставляет исследователям уникальные возможности для создания и тестирования алгоритмов персонализированных рекомендаций.
Датасет включает два основных типа взаимодействий: неявную обратную связь (прослушивание треков) и явную обратную связь (лайки, дизлайки, отмены лайков и дизлайков). Для большинства треков предоставлены аудио-встраивания, полученные с помощью сверточной нейронной сети, обученной на аудиоспектрограммах. Особенностью Yambda-5B является наличие флага, который позволяет отличать органические действия пользователей от событий, вызванных рекомендациями. Это важно для разработки и оценки алгоритмов машинного обучения, поскольку Яндекс Музыка использует рекомендательные системы для персонализации выбора треков для пользователей.
Для поддержки строгого бенчмаркинга разработан протокол оценки на основе Global Temporal Split, позволяющий оценивать алгоритмы рекомендаций в условиях, близких к реальному использованию. Были представлены результаты бенчмарков для стандартных базовых моделей (ItemKNN, iALS) и более сложных моделей (SANSA, SASRec) с использованием различных метрик оценки.
Выпуск Yambda-5B предоставляет сообществу доступный промышленный ресурс для продвижения исследований, стимулирования инноваций и обеспечения воспроизводимости результатов в области рекомендательных систем.

