Введение

Во время работы над диссертацией мне часто приходилось делать обзоры литературы, чтобы разобраться в темах, над которыми я работал. Это может занять много времени (иногда мне даже хотелось спать...). Спросите любого аспиранта (или ученого в целом), и он скажет вам, что обзоры научных статей для ученых — это то же, что Иисус для христиан!

Когда я ищу тему в литературе, представлены два случая: либо эта тема интенсивно исследуется (поэтому мне приходится читать тонны статей), либо тема редко исследуется и публикуется несколько статей. может быть интересной работой, выполненной где-то, но ее может быть трудно найти (если она не опубликована в известном журнале или, например, не цитируется).

Поскольку ленивый во мне любит автоматизировать вещи, а поскольку я страстно увлекаюсь обработкой естественного языка (НЛП), я разработал алгоритм, который генерирует обзор из кучи статей, который я назвал NaimAI (фактически произносится как Naymay. .). Этот алгоритм развернут в naimai.fr (иногда отключается для обновления..), и моя цель в этой статье — объяснить основные идеи, лежащие за кулисами.

Цель

Основная цель NaimAI — составить обзор ряда статей: допустим, я новичок в гидравлическом моделировании и хочу иметь представление об одномерном моделировании наводнений. Старый способ:

  1. Найдите статьи: спросите людей, работающих над той же темой, о популярных статьях, поищите в Google или на других веб-сайтах (Google Scholar, веб-сайты редакторов...), просмотрите ссылки на статьи, которые я прочитал...
  2. Прочитайте статьи: я обычно начинаю с аннотации и заключения (может быть, сразу с введения), чтобы попытаться угадать, будет ли статья интересна для меня. Излишне говорить, что этот шаг занимает немного времени.

Проблема здесь в том, что я могу тратить время на статьи, которые не могут быть такими полезными, и часто заканчиваю тем, что выбираю несколько номеров из них. Например, я лучше потрачу это потерянное время на поиск более интересных статей.

С помощью этого алгоритма моя цель состоит в том, чтобы сэкономить время и быстро получить общее представление о проделанной работе путем создания отзыва. Таким образом, мы можем легко настроить таргетинг на нужные документы и сэкономить время.

Идея

Основная идея проста:

  1. Входные данные: документы (N документов на рисунке выше) и запрос.
  2. Обработка PDF-файлов: этот шаг состоит в основном из чтения PDF-файлов, очистки текста и подготовки его к этапу классификации.
  3. Классификация PDF-файлов: обработанные документы классифицируются на основе заданного запроса. В NaimAI используются два метода: метод Doc2vec и метод Tf Idf (библиотека обучения scikit). Развернутая версия (в naimai.fr) использует только метод Tf Idf.
  4. Генерация текста. После классификации статей NaimAI определяет для каждой статьи: (1) имя автора, (2) год публикации и (3) предложения, в которых излагается цель статьи. Затем для каждой статьи создается обзорная фраза (пример: X et al. 2021 показал, что … Y et al. 1999 работал над…). При этом, если он не сможет определить имя автора, вы можете получить что-то странное, но пока ссылки цитируются (или могут быть загружены), вы узнаете, не сработал ли алгоритм. Эта часть будет улучшена в следующих версиях.

НаимАИ

Итак, описанные выше шаги реализованы в алгоритме, развернутом с помощью Django здесь. Я уже обработал тысячи статей во многих областях (в основном из arXiv). Все эти поля можно найти в меню Поле:

Как вы, наверное, заметили, вы можете определить размер фраз (коротких или длинных), а также количество ссылок в меню перед поиском.

Следующий

Конечно, есть так много областей, которые можно улучшить/добавить: идентификация имен авторов, просмотр ваших пользовательских статей, сама обработка, генерация текста и т. д. Кроме того, я хотел бы, чтобы модель определяла не только цель, но также метод и результаты, что также позволяет более точно просматривать методы и результаты.

Я буду постепенно исправлять эти проблемы в следующих версиях, хотя мне очень любопытно использовать некоторые более продвинутые методы для генерации текста (модели bi Transformers с механизмом внимания).

Надеюсь, это будет полезно. В этих первых версиях вы должны ожидать некоторых странных (и забавных) результатов, но это будет исправлено как можно скорее!