Создание обзоров научной литературы

Введение

Во время работы над диссертацией мне часто приходилось делать обзоры литературы, чтобы разобраться в темах, над которыми я работал. Это может занять много времени (иногда мне даже хотелось спать...). Спросите любого аспиранта (или ученого в целом), и он скажет вам, что обзоры научных статей для ученых — это то же, что Иисус для христиан!

Когда я ищу тему в литературе, представлены два случая: либо эта тема интенсивно исследуется (поэтому мне приходится читать тонны статей), либо тема редко исследуется и публикуется несколько статей. может быть интересной работой, выполненной где-то, но ее может быть трудно найти (если она не опубликована в известном журнале или, например, не цитируется).

Поскольку ленивый во мне любит автоматизировать вещи, а поскольку я страстно увлекаюсь обработкой естественного языка (НЛП), я разработал алгоритм, который генерирует обзор из кучи статей, который я назвал NaimAI (фактически произносится как Naymay. .). Этот алгоритм развернут в naimai.fr (иногда отключается для обновления..), и моя цель в этой статье — объяснить основные идеи, лежащие за кулисами.

Цель

Основная цель NaimAI — составить обзор ряда статей: допустим, я новичок в гидравлическом моделировании и хочу иметь представление об одномерном моделировании наводнений. Старый способ:

Найдите статьи: спросите людей, работающих над той же темой, о популярных статьях, поищите в Google или на других веб-сайтах (Google Scholar, веб-сайты редакторов...), просмотрите ссылки на статьи, которые я прочитал...
Прочитайте статьи: я обычно начинаю с аннотации и заключения (может быть, сразу с введения), чтобы попытаться угадать, будет ли статья интересна для меня. Излишне говорить, что этот шаг занимает немного времени.

Проблема здесь в том, что я могу тратить время на статьи, которые не могут быть такими полезными, и часто заканчиваю тем, что выбираю несколько номеров из них. Например, я лучше потрачу это потерянное время на поиск более интересных статей.

С помощью этого алгоритма моя цель состоит в том, чтобы сэкономить время и быстро получить общее представление о проделанной работе путем создания отзыва. Таким образом, мы можем легко настроить таргетинг на нужные документы и сэкономить время.

Идея

Основная идея проста:

Входные данные: документы (N документов на рисунке выше) и запрос.
Обработка PDF-файлов: этот шаг состоит в основном из чтения PDF-файлов, очистки текста и подготовки его к этапу классификации.
Классификация PDF-файлов: обработанные документы классифицируются на основе заданного запроса. В NaimAI используются два метода: метод Doc2vec и метод Tf Idf (библиотека обучения scikit). Развернутая версия (в naimai.fr) использует только метод Tf Idf.
Генерация текста. После классификации статей NaimAI определяет для каждой статьи: (1) имя автора, (2) год публикации и (3) предложения, в которых излагается цель статьи. Затем для каждой статьи создается обзорная фраза (пример: X et al. 2021 показал, что … Y et al. 1999 работал над…). При этом, если он не сможет определить имя автора, вы можете получить что-то странное, но пока ссылки цитируются (или могут быть загружены), вы узнаете, не сработал ли алгоритм. Эта часть будет улучшена в следующих версиях.

НаимАИ

Итак, описанные выше шаги реализованы в алгоритме, развернутом с помощью Django здесь. Я уже обработал тысячи статей во многих областях (в основном из arXiv). Все эти поля можно найти в меню Поле:

Как вы, наверное, заметили, вы можете определить размер фраз (коротких или длинных), а также количество ссылок в меню перед поиском.

Конечно, есть так много областей, которые можно улучшить/добавить: идентификация имен авторов, просмотр ваших пользовательских статей, сама обработка, генерация текста и т. д. Кроме того, я хотел бы, чтобы модель определяла не только цель, но также метод и результаты, что также позволяет более точно просматривать методы и результаты.

Я буду постепенно исправлять эти проблемы в следующих версиях, хотя мне очень любопытно использовать некоторые более продвинутые методы для генерации текста (модели bi Transformers с механизмом внимания).

Надеюсь, это будет полезно. В этих первых версиях вы должны ожидать некоторых странных (и забавных) результатов, но это будет исправлено как можно скорее!

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning