Автор Виктор Бувье, аспирант CentraleSupelec MICS и Sidetrade.

Несколько недель назад я посетил SIGIR 2019, конференцию по исследованиям и разработкам в области Поиск информации, которая проходила в Париже в La Villette в течение 5 полных дней! Для нашей группы исследований и разработок это была прекрасная возможность ближе познакомиться с современными методами информационного поиска.

Начнем с того, почему и что! Поиск информации (IR) - это задача предоставления пользователю информации, которую он искал. Самыми популярными приложениями, безусловно, являются поисковые системы (ваши запросы в Google) и рекомендательные системы (ваша следующая вынужденная покупка на Amazon).

IR - это широко используемая структура в Sidetrade, которая включает в себя многие из наших продуктов. Например, Smart Explorer предоставляет нашим клиентам рейтинг компаний ЕС для облегчения поиска, а Growth product оптимизирует продажи и перекрестные продажи, используя систему рекомендаций. Помимо прогнозного анализа, для наших клиентов очень ценно предоставление бизнес-аналитики. Например, если интересно ранжировать клиентов пользователя по риску оттока клиентов, то определение действенных идей для снижения этого риска - это золото! Вот почему в La Villette мое внимание привлекли статьи, связанные с областями исследований справедливости, объяснимости, объективного ранжирования и совместной фильтрации.

Мое отношение к конференции несколько смешанное. Принятые статьи были определенно высококачественным исследованием с часто сильными эмпирическими результатами, которые действительно ценны для IR-сообщества. Но некоторые устные презентации (если не слишком много ...) следовали в точности бумажному сценарию, раскрывая метод / результаты / связанную работу и т. Д., И не были предназначены для возбуждения обсуждения (это действительно неприятно, когда известно, что тысячи людей совершили трансконтинентальные перелеты, чтобы быть в них). комната). Некоторым даже не задали вопрос из зала… Давайте забудем об этом и остановимся на пяти докладах, которые действительно привлекли мое внимание во время этой конференции!

«Оценка шума для одноуровневой совместной фильтрации». [1]

Wu et al. исследовать, как мы выбираем элементы, которые, вероятно, не интересуют пользователя, чтобы получить отрицательные примеры для обучения рекомендательной системе. Они утверждают, что пара пользователь-элемент может быть ошибочно помечена как отрицательная из-за отсутствия взаимодействия, а не из-за того, что пользователь не заинтересован. В этом случае модель сильно смещается и становится более осторожной, рекомендуя непопулярные предметы. Эта проблема возникает, когда взаимодействия между пользователями и товарами очень редки, что обычно имеет место в случае проблемы перекрестных продаж: очень популярная продуктовая линейка компании может разрушить представление о продаже супер-подходящего, но почему-то менее популярного продукта.

Вместо того, чтобы моделировать проблему как положительную и отрицательную классификацию, они предлагают учиться, сравнивая наблюдаемые взаимодействия пользователя и элемента со случайной моделью, которая известна как шумовая контрастная оценка (NCE). Стоит отметить, что NCE стал ключом к успеху в изучении высококачественных встраиваний слов [2]. С практической точки зрения, рекомендация NCE предлагает значительное улучшение с впечатляющим выигрышем во времени вычислений, что делает ее серьезным конкурентом популярных моделей для практиков.

«Реляционная совместная фильтрация: моделирование отношений нескольких элементов для рекомендации» [3]

Xin et al. используйте простую, но очень эффективную идею для повышения эффективности рекомендаций. Вместо того, чтобы использовать только совместное сходство (меня, скорее всего, будут интересовать элементы, в которых заинтересованы пользователи с таким же профилем интересов, чем у меня), они предлагают использовать сходство элементов (например, фильмы с общим режиссером имеют некоторое сходство). Встраивая отношения с нейронной сетью, основанной на внимании, они значительно превосходят современные методы, основанные только на совместном сходстве.

Этот подход может иметь большое значение в промышленных приложениях. Следуя примеру дополнительных продаж и перекрестных продаж в Sidetrade, внедрение метаданных продукта (линейка продуктов, иерархия продуктов и т. Д.) Становится главным подозреваемым в улучшении!

«Table2Vec: нейронные слова и вложения сущностей для заполнения и поиска таблиц». [4]

Эта статья действительно привлекла мое внимание, поскольку в ней есть некоторые связи с Dirty Data, исследовательским проектом, в котором мы участвуем в Sidetrade. Table2Vec использует популярный фреймворк word2vec [2] для обучения высококачественному встраиванию сущностей в таблицу. Основная идея состоит в том, чтобы использовать тот факт, что два объекта данного столбца с одинаковыми именами должны быть встроены рядом в пространство функций. Например, Electricité De France и EDF имеют общие шаблоны, и их не следует встраивать в удаленные регионы космоса.

«Адаптация домена для корпоративного поиска по электронной почте». [5]

Тран и др. Из Google показывают, как можно улучшить их поисковую систему Gmail для компаний, используя определенные статистические модели каждой компании. Так называемая модель инвариантного представления домена состоит в изучении представления электронных писем, которое инвариантно для компании. Обещание этого подхода заключается в изучении общих шаблонов: знания, полученные от компании A, затем могут быть использованы для улучшения модели компании B и так далее. Адаптация предметной области - это тема исследования, которая широко изучается в Sidetrade [6,7], поскольку у нее есть огромные приложения для повышения надежности моделей в производственной среде.

Мне было очень интересно узнать, как Google решил реализовать эту структуру для своей поисковой системы Gmail! В их контексте использование Domain Adaptation немного улучшило производительность, но результаты немного не впечатляют ... Было бы интересно также использовать протокол тестирования [7], который состоит в обучении модели на множестве компаний и тестировании на множестве невидимых компании во время обучения. Может, результаты были бы более впечатляющими?

«Тестирование статистической значимости при поиске информации: эмпирический анализ ошибок типа I, типа II и типа III» [8]

Такая бумага, которую я люблю! Огромная экспериментальная установка, которая возвращает к жизни тенденцию использования тестов и некоторых специальных мер производительности для сравнения моделей [8]. В статье делается попытка ответить на вопрос: «Насколько хорошо разница в эффективности отражает реальную разницу между системами, в отличие от случайного шума», а затем какой статистический тест лучше всего подходит для ее количественной оценки? Они вычисляют 500 миллионов p-значений для ряда широко распространенных тестов, IR-систем и различных размеров наборов данных ... чтобы дать практические рекомендации практикам! Короче говоря, будьте осторожны с тестом бутстрап-сдвига, если размер выборки невелик, в то время как t-тест и тест перестановки ведут себя хорошо даже в режиме с низким объемом данных.

Короче говоря, посещение SIGIR 2019 было определенно отличным опытом, позволяющим лучше понять, что делается в сообществе IR. Некоторые документы были действительно выдающимися и очень важными для наших бизнес-кейсов. Кроме того, у меня была возможность посетить содержательный урок по справедливости в IR от Майкла Д. Экстранда и Фернандо Диаса. Как меня любезно предупредили, я получил ответы, но оставил еще больше новых вопросов 😊…

Библиография

[1] Wu et al. « Шумовая контрастная оценка для одноклассной совместной фильтрации .» (2019).

[2] Миколов и др. « Распределенные представления слов и фраз и их композиционность Достижения в области нейронных систем обработки информации. 2013.

[3] Xin et al. Реляционная совместная фильтрация: моделирование отношений нескольких элементов для рекомендаций. Препринт arXiv arXiv: 1904.12796 (2019).

[4] Ли Дэн, Шо Чжан и Кристиан Балог. Table2Vec: нейронные слова и вложения сущностей для заполнения и поиска таблиц. Труды 42-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. ACM, 2019.

[5] Тран и др. Адаптация домена для корпоративного поиска по электронной почте. Препринт arXiv arXiv: 1906.07897 (2019).

[6] Бувье и др. Скрытый ковариативный сдвиг: минимальное предположение для адаптации предметной области. Препринт arXiv arXiv: 1907.12299 (2019).

[7] Бувье и др. Изучение инвариантных представлений для анализа настроений: недостающий материал - это наборы данных. Препринт arXiv arXiv: 1907.12305 (2019).

[8] Урбано и др., Http://arxiv.org/abs/1905.11096