Что такое рекомендательные системы и как они работают

Откуда соцсети, интернет-магазины и онлайн-кинотеатры знают, что вы любите? Разбираемся вместе.

microsoft / microsoft.com

Юлия Гаврилова

Пишет про digital и машинное обучение для корпоративных блогов. Топ-автор в категории «Искусственный интеллект» на Medium. Kaggle-эксперт.

Покупая что-то в онлайн-магазине, вы наверняка замечаете блок «Рекомендованное». И чем больше времени вы рассматриваете товары, тем более качественными становятся рекомендации.

Пока вы изучаете ассортимент, специальный алгоритм собирает досье: какие цвета и модели вам нравятся, что покупаете, а что удаляете из корзины. Программа находит похожие товары и в первую очередь показывает вам именно их — как если бы в ассортименте магазина были только ваши любимые вещи.

Сложно устоять перед соблазном и не потратить все деньги. На это и рассчитывают заказчики рекомендательных систем — они пытаются увеличить конверсию в покупку и средний чек своих магазинов.

Виды рекомендательных систем

Представьте, что вам нужно порекомендовать кому-то фильм. На чём вы будете основываться? Другу, с которым у вас много общего, можно посоветовать то, что понравилось вам. Но восьмилетней сестре вы вряд ли предложите «Декстера» — и вкусы, и потребности явно будут отличаться.

Логика рекомендательных систем тоже может быть разной:

Фильтрация, основанная на контенте (content-based filtering).
Коллаборативная фильтрация (collaborative filtering).
Фильтрация, основанная на знаниях (knowledge-based filtering).
Гибридные рекомендательные системы (hybrid filtering).

Рассмотрим каждый из типов подробнее.

Фильтрация, основанная на контенте (content-based filtering)

Посмотрели ужастик про зомби? Рекомендательная система, основанная на контенте, посоветует ещё 25. Постоянно слушаете Queen? Вот вам плейлист рок-музыки семидесятых. Кажется, что это безотказный метод. Но нет.

Допустим, вы купили диван. Это крупная и дорогая покупка, большинство людей не приходит за новым диваном каждый месяц. Если рекомендательная система посоветует вам купить ещё 15 диванов, то магазин явно будет в убытке. А вот рекламные системы вроде «Яндекс.Директа» о факте покупки не знают, поэтому ещё долго будут кидаться в вас всевозможными диванами — то есть фильтровать рекламу, основываясь на контенте.

Коллаборативная фильтрация (collaborative filtering)

Что же делать магазину мебели в такой ситуации? Рецепт простой — можно отследить историю корзин всех покупателей диванов. И окажется, что спустя пару месяцев многие покупают средства и губки для чистки мебели, какие-то аксессуары, чехлы, накидки. Порекомендовать их клиенту — значит сделать его жизнь проще, а заодно заработать. Но и этот подход не универсален.

Фильтрация, основанная на знаниях (knowledge-based filtering)

Если на сайте продаются дома или машины, полагаться на отзывы других пользователей система не может: покупки штучные и редкие, а значит, информации слишком мало — нет статистической значимости. Но мы же хотим, чтобы пользователь купил дом своей мечты у нас, а не у конкурентов?

В этом случае можно добавить фильтры: дом в городе или в деревне, количество этажей и квадратных метров, материал стен. После этого рекомендательная система подбирает наиболее подходящие дома из каталога.

Такой тип рекомендаций точен: пользователю показывают именно то, что он хочет видеть. Но алгоритмы фильтрации, основанной на знаниях, сложнее продумать, потому что параметров поиска может быть очень много.

Гибридные рекомендательные системы (hybrid filtering)

Гибридные рекомендательные системы сочетают разные подходы. Так можно избавиться от большинства недостатков «несмешанных» систем. Например, в онлайн-магазинах одежды в рекомендациях показываются вещи, похожие на те, что вы уже смотрели, а также те, которые покупали пользователи с похожими вкусами, — то есть одновременно включаются механизмы фильтрации, основанной на контенте, и коллаборативной фильтрации.

Как работает рекомендательная система Netflix

Считается, что рекомендательная система Cinematch, созданная Netflix, — одна из наиболее продуманных в мире. Netflix не раскрывает всех деталей работы своей модели машинного обучения, но основные принципы известны.

При регистрации вас сразу просят указать несколько любимых фильмов и сериалов. На их основе генерируется лента, которая будет подстраиваться под ваши вкусы. С помощью лайков и дизлайков вы можете корректировать её и добавлять понравившиеся фильмы в плейлист.

Netflix хочет знать о вас всё: что вы смотрите, что смотрели до и после конкретной программы, в какое время суток используете сервис и сколько времени в нём проводите. Алгоритм учитывает ваши возраст, пол и геопозицию.

Каждое видео на Netflix сначала просматривают специалисты. Они вручную маркируют и размечают контент, то есть описывают, что зритель увидит на экране. Пользователи иногда ищут очень конкретные вещи — например, «британская комедия про зомби» — и Netflix может выдать релевантный контент даже на такие сложные запросы.

Видеосервис использует данные о фильмах и пользователях, чтобы с помощью алгоритмов машинного обучения оценить, какая информация важнее всего. Например, что больше влияет на ваши вкусы сегодня: то, что вы смотрели год или неделю назад? Обычно чем свежее данные, тем лучше. Хотя если сейчас конец декабря, то новогодние и рождественские комедии окажутся более уместными — но только для стран с христианскими традициями.

Cinematch рассматривает как явные, так и неявные источники информации. Если вы добавляете сериал в избранное, значит, он вас заинтересовал. Но если вы посмотрели три сезона сериала за два дня и при этом не добавили его в избранное, это тоже хороший знак.

Алгоритм машинного обучения анализирует не только каждого отдельного пользователя, но и группы пользователей со сходными вкусами — сегменты. У Netflix таких сегментов по интересам больше 2 тысяч. В итоге на рекомендации влияет даже то, что смотрели другие люди из вашего сегмента.

В Интернете множество сайтов, на которых фильмы можно смотреть бесплатно, но Netflix в 2020 году набрал почти 200 млн платных подписчиков. А значит, их рекомендательная система чего-то стоит.

Плюсы и минусы рекомендательных систем

Рекомендательные системы приносят очевидную выгоду владельцам онлайн-магазинов, различных сервисов и приложений. Они показывают пользователю именно то, что ему интересно, и генерируют прибыль.

Но есть и минусы. Человек привыкает к подсказкам рекомендательных сетей при выборе книг, фильмов и музыки. У него пропадает стимул изучать новые непривычные жанры — ведь всё, что предлагает сеть, ему в принципе нравится.

Особенно остро стоит проблема потребления новостей и выдачи умной ленты в социальных сетях. Потому что здесь речь идёт уже не столько о развлечениях, сколько о формировании мировоззрения.

Например, у расиста или у конспиролога, верящего в рептилоидов, в ленте будут преобладать поддерживающие его точку зрения материалы — а значит, его шансы познакомиться с качественными альтернативными источниками стремятся к нулю и он будет лишь ещё больше укрепляться в своём мнении. И это может привести к печальным последствиям или неадекватным поступкам.

Социальные сети и алгоритмы выдачи борются с таким явлением. Так что бояться полной потери индивидуальности не стоит. Все мы в какой-то степени полагаемся на гаджеты и современные технологии, а рекомендации помогают ориентироваться в потоке информации и находить интересные материалы быстрее.

Читайте также: