- Расширение представлений проходов с помощью генерации запросов для расширенного межъязыкового плотного поиска (arXiv)
Автор: Шэнъяо Чжуан, Линьцзюнь Шоу, Гвидо Цуккон.
Аннотация: Эффективные межъязыковые методы плотного поиска, основанные на многоязычных предварительно обученных языковых моделях (PLM), должны быть обучены, чтобы охватить как задачу сопоставления релевантности, так и задачу согласования между языками. Тем не менее, межъязыковые данные для обучения часто труднодоступны. В этой статье вместо того, чтобы использовать больше межъязыковых данных для обучения, мы предлагаем использовать генерацию межъязыковых запросов, чтобы дополнить представления отрывков запросами на языках, отличных от языка исходного отрывка. Эти расширенные представления используются во время вывода, чтобы представление могло кодировать больше информации на разных целевых языках. Для обучения генератора межъязыковых запросов не требуются дополнительные обучающие данные по сравнению с данными, используемыми для плотного извлечения. Обучение генератора запросов также эффективно, потому что задача предварительного обучения для генератора (обучение преобразования текста в текст T5) очень похожа на задачу тонкой настройки (генерация запроса). Использование генератора не увеличивает задержку запроса при выводе и может сочетаться с любым межъязыковым методом плотного поиска. Результаты экспериментов с эталонным набором данных для межъязыкового поиска информации показывают, что наш подход может повысить эффективность существующих методов межъязыкового плотного поиска. Реализация наших методов, а также все сгенерированные файлы запросов находятся в открытом доступе по адресу https://github.com/ielab/xQG4xDR.
2. Персонализированная структура плотного поиска для унифицированного доступа к информации (arXiv)
Автор: Ханси Зенг, Сурья Каллумади, Заид Алибади, Родриго Ногейра, Хамед Замани.
Аннотация: Разработка универсальной модели, которая может эффективно и действенно реагировать на широкий спектр запросов доступа к информации — от поиска до рекомендаций и ответов на вопросы — была давней целью в информационно-поисковом сообществе. В этой статье утверждается, что гибкость, эффективность и результативность, принесенные недавними разработками в области плотного поиска и приближенного поиска ближайших соседей, облегчили путь к достижению этой цели. Мы разрабатываем универсальную и расширяемую инфраструктуру плотного поиска под названием \framework, которая может обрабатывать широкий спектр (персонализированных) запросов на доступ к информации, таких как поиск по ключевым словам, запрос по образцу и рекомендации по дополнительным элементам. Предлагаемый нами подход расширяет возможности плотных поисковых моделей для специальных поисковых задач за счет включения пользовательских предпочтений посредством разработки персонализированной внимательной сети. Это обеспечивает более индивидуальный и точный персонализированный доступ к информации. Наши эксперименты с реальными данными электронной коммерции предполагают возможность разработки универсальных моделей доступа к информации, демонстрируя значительные улучшения даже по сравнению с базовыми моделями конкурентов, специально разработанными для каждой из этих отдельных задач доступа к информации. Эта работа открывает ряд фундаментальных направлений исследований для будущих исследований.