- На (нормализованном) дисконтированном кумулятивном приросте как метрике автономной оценки для рекомендации Top-n (arXiv)
Автор : Оливье Женен, Иван Потапов, Алексей Устименко.
Аннотация: Подходы к рекомендациям обычно оцениваются одним из двух способов: (1) с помощью (моделированного) онлайн-эксперимента, который часто рассматривается как золотой стандарт, или (2) с помощью какой-либо процедуры автономной оценки, целью которой является приближение к результату. онлайн-эксперимента. В литературе было принято несколько метрик автономной оценки, основанных на метриках ранжирования, распространенных в области информационного поиска. (Нормализованный) дисконтированный кумулятивный выигрыш (nDCG) является одним из таких показателей, который получил широкое распространение в эмпирических исследованиях, а более высокие значения (n)DCG использовались для представления новых методов как передовых в рекомендациях top-n. на протяжении многих лет. Наша работа критически рассматривает этот подход и исследует, когда мы можем ожидать, что такие показатели будут приближаться к золотому стандарту результатов онлайн-экспериментов. Мы формально представляем допущения, необходимые для того, чтобы считать DCG объективной оценкой онлайн-вознаграждения, и приводим вывод этой метрики из первых принципов, подчеркивая, где мы отклоняемся от ее традиционного использования в IR. Важно отметить, что мы показываем, что нормализация метрики делает ее противоречивой, поскольку даже когда DCG несмещен, ранжирование конкурирующих методов по их нормализованной DCG может инвертировать их относительный порядок. С помощью корреляционного анализа между офлайн- и онлайн-экспериментами, проведенными на крупномасштабной рекомендательной платформе, мы показываем, что наши объективные оценки DCG сильно коррелируют с онлайн-вознаграждением, даже когда некоторые из допущений, присущих метрике, нарушаются. Это утверждение больше не относится к его нормализованному варианту, предполагая, что практическая полезность nDCG может быть ограничена.
2. Широко распространенные недостатки в автономной оценке рекомендательных систем (arXiv)
Автор: Балаш Хидаси, Адам Тибор Чапп
Аннотация: Несмотря на то, что офлайн-оценка является всего лишь несовершенным показателем онлайн-производительности — из-за интерактивной природы рекомендаций — она, вероятно, останется основным способом оценки в исследованиях рекомендательных систем в обозримом будущем, поскольку проприетарный характер производственных рекомендаций не позволяет независимым проверка настроек A/B-тестирования и проверка онлайн-результатов. Поэтому крайне важно, чтобы настройки автономной оценки были максимально реалистичными и безупречными. К сожалению, недостатки оценки в настоящее время довольно распространены в исследованиях рекомендательных систем из-за того, что более поздние работы копируют ошибочные настройки оценки своих предшественников, не подвергая сомнению их достоверность. В надежде улучшить качество автономной оценки рекомендательных систем мы обсудим четыре из этих распространенных недостатков и причины, по которым исследователям следует их избегать.