VAE не делают классические рекомендательные системы устаревшими

Прочитав статью Как вариационные автоэнкодеры делают классические рекомендательные системы устаревшими, в которой утверждается, что вариационные автоэнкодеры (VAE) превосходят классические рекомендательные системы, такие как простые модели совместной фильтрации на основе памяти и моделей, я почувствовал необходимость ответить. Хотя в этой статье представлено интересное сравнение различных алгоритмов рекомендаций, я не согласен с посылкой статьи, а именно с тем, что VAE делают классические рекомендательные системы устаревшими.

В этой статье я представлю три причины, по которым VAE могут быть лучшим решением конкретных проблем с рекомендациями, а не всех проблем с рекомендациями:

  1. Производительность алгоритма рекомендаций варьируется от набора данных к набору данных: не существует универсального алгоритма наилучшей рекомендации.
  2. Существует много целей для рекомендательных систем, начиная от точности, одной из наиболее часто используемых метрик автономной оценки, и заканчивая другими метриками, такими как новизна, охват, разнообразие и интуиция. Конкретные алгоритмы могут лучше всего подходить для одной из этих целей, но не обязательно для всех этих целей.
  3. Проблема холодного старта очень важна для некоторых областей, таких как мода, но холодный старт не рассматривается в работе автора.

Производительность алгоритма рекомендаций варьируется от набора данных к набору данных: не существует универсально лучшего алгоритма рекомендаций.

В анализе автора рассматривается только один набор данных, Movielens 20M, который не является репрезентативным для многих других типов проблем с рекомендациями. Movielens использует явные рейтинги, менее разреженный, чем другие наборы данных, страдает от меньшей предвзятости популярности [1] и, как упоминает автор, имеет очень мало данных о контенте. Проблемы рекомендаций с другими характеристиками, чем у Movielens, вероятно, будут демонстрировать другую алгоритмическую производительность. Это долгое время имело место для классических алгоритмов обучения с учителем, где теорема об отсутствии бесплатного обеда утверждает, что не существует «универсально лучшего алгоритма обучения» [2].

Dacrema, Cremonesi и Jannach, одни из ведущих исследователей в области рекомендаций, недавно опубликовали результаты сравнения воспроизводимости и производительности между нейронными подходами к рекомендациям по сравнению с простыми базовыми показателями [3] и обнаружили, что:

  1. Различные алгоритмы лучше всего работали на разных наборах данных. Например, полностью неперсонализированный алгоритм (рекомендующий только самые популярные элементы) работал лучше, чем все нейронные подходы, включая VAE, на одном конкретном наборе данных. Авторы поясняют: «Распределение популярности элементов в этом наборе данных очень асимметрично, что затрудняет создание персонализированных рекомендаций, которые лучше с точки зрения мер по поиску информации, чем [рекомендация наиболее популярных элементов]».
  2. Нейронные подходы, включая VAE, редко превосходили простые не-нейронные базовые уровни: «11 из 12 воспроизводимых нейронных подходов могут быть лучше концептуально простых методов, например, основанных на эвристике ближайшего соседа. Ни один из вычислительно сложных нейронных методов на самом деле не был лучше, чем уже существующие методы, основанные на обучении, например, с использованием матричной факторизации или линейных моделей».
  3. VAE, алгоритм, специально упомянутый в заголовке этой статьи, был протестирован авторами в сравнении с другими алгоритмами на наборе данных CiteULike-a. В этом наборе данных VAE всегда проигрывали ItemKNN-CBF и UserKNN-CBF, двум простым ненейронным подходам.

Короче говоря, автономные оценки разных наборов данных рекомендаций часто приводят к разным результатам производительности. Кроме того, Dacrema et al. продемонстрировали, что во многих случаях работы, в которых нейронные подходы сравнивались с простыми базовыми линиями, не выполняли адекватной настройки этих базовых линий, что приводило к снижению базовой производительности. Было бы полезно, если бы автор этой истории поделился кодом, используемым для получения этих результатов, чтобы убедиться, что используемые здесь базовые показатели были правильно настроены.

Множество целей рекомендательных систем

На практике рекомендательные системы преследуют много других целей, кроме точности результатов. Эти цели включают разнообразие, новизну, охват и интуицию. Мне очень нравится, как автор включает и NDCG@100, и индекс персонализации в качестве метрик автономной оценки, поскольку первый измеряет точность топ-N, а второй измеряет межпользовательское разнообразие. Наиболее подходящей рекомендательной системой для конкретной проблемы может быть та, которая обеспечивает наилучший компромисс между несколькими целями в соответствии с бизнес-целями.

В то время как для анализа автора VAE показали лучшие результаты на NDCG @ 100, а ограниченные машины Больцмана (RBM) показали лучшие результаты на индексе персонализации, на практике мы можем рассмотреть, какой алгоритм лучше всего справляется с балансировкой двух. Просто взглянув на результаты, кажется, что NMF хорошо справляется с балансировкой точности (NDCG @ 100 из 0,315) с разнообразием между пользователями (индекс персонализации 0,800). Я также хочу отметить, что простая базовая линия, состоящая из рекомендаций случайных элементов пользователям, скорее всего, обеспечит верхнюю границу индекса персонализации, что приведет к более высокому значению, чем RBM, хотя и за счет точности.

Таким образом, хотя алгоритмы VAE показали лучшие результаты на NDCG@100, могут быть важные цели системы рекомендаций, отличные от точности топ-N, и алгоритмы VAE далеки от самого эффективного алгоритма рекомендаций для индекса персонализации.

Проблема с холодным пуском

Проблема холодного старта возникает, когда необходимо дать рекомендации для пользователей или элементов без истории взаимодействия. В некоторых областях, таких как мода, предоставление рекомендаций для новых пользователей и предметов является критически важной целью для разработки рекомендательной системы из-за быстрого оборота каталога (в некоторых магазинах быстрой моды предмет одежды может быть в наличии только в течение некоторого времени). дней) и много новых покупателей [4]. Проблему холодного старта можно решить, используя модель, основанную на контенте, используя информацию о контенте для проецирования функций пользователя или элемента в скрытое пространство для совместной работы [5] или предоставляя неперсонализированные рекомендации до тех пор, пока не будет достаточно данных о взаимодействии для пользователей или элементов. давать рекомендации, не основанные на содержании.

Анализ в этой истории не принимал во внимание проблему холодного запуска, несмотря на то, насколько важен холодный запуск для определенных доменов. Некоторые алгоритмы рекомендаций, такие как многие подходы к совместной фильтрации, могут очень хорошо работать с пользователями и элементами с большим количеством взаимодействий, но часто не могут давать рекомендации для новых пользователей и элементов без информации о пользователе или содержимом элемента.

Вывод

Таким образом, VAE не делают классические рекомендательные системы устаревшими. В истории, на которую я отвечаю, представлен только анализ одного набора данных (без кода для воспроизводимости), не рассматривается, как сбалансировать множество целей рекомендательных систем, и не рассматривается проблема холодного запуска. VAE могут быть лучшим решением для некоторых проблем с рекомендациями, но не панацеей от всех проблем с рекомендациями.

использованная литература

[1] Кремонези, П., Корен, Ю., и Туррин, Р. (2010). Производительность рекомендательных алгоритмов на первых N задачах рекомендаций. В RecSys’10 — Материалы 4-й конференции ACM по рекомендательным системам (стр. 39–46). https://doi.org/10.1145/1864708.1864721

[2]Рич Каруана и Александру Никулеску-Мизиль. 2006. Эмпирическое сравнение алгоритмов обучения с учителем. В материалах 23-й международной конференции по машинному обучению (ICML ’06). Ассоциация вычислительной техники, Нью-Йорк, штат Нью-Йорк, США, 161–168. DOI: https://doi.org/10.1145/1143844.1143865

[3] Маурицио Феррари Дакрема, Паоло Кремонези, Дитмар Яннах. Мы действительно делаем большой прогресс? Тревожный анализ последних подходов к нейронным рекомендациям, RecSys 2019. См. здесь для получения обновленной версии.

[4] Джейк Шерман, Чинмай Шукла, Ронда Текстор, Су Чжан и Эми А. Уайнкофф. 2019. Оценка модных рекомендаций: многогранный подход к автономной оценке. В материалах семинара по рекомендательным системам в моде, 13-й конференции ACM по рекомендательным системам (recsysXfashion’19). ACM, Нью-Йорк, штат Нью-Йорк, США, 7 страниц.

[5] Орен Баркан, Ноам Кенигштейн, Эйлон Йогев и Ори Кац. 2019. CB2CF: Нейронная модель многоракурсной фильтрации контента для совместной работы для рекомендаций по полностью холодным товарам. В материалах Recsys'19. ACM, Копенгаген, Дания. https://doi.org/10.1145/3298689.3347038