LayoutLM — это нейронная сеть, которая совместно моделирует взаимодействие между текстом и информацией о макете в отсканированных изображениях документов, поэтому она полезна для большого количества задач понимания изображений реальных документов, таких как извлечение информации из отсканированных документов.

По сути, есть два типа функций, которые существенно улучшают языковое представление в визуально богатом документе, а именно:

  1. Информация о макете документа
  2. Визуальная информация

Детали архитектуры

Чтобы воспользоваться преимуществами существующих предварительно обученных моделей и адаптироваться к задачам понимания изображения документа, мы используем архитектуру BERT в качестве основы и добавляем два новых входных вложения: встраивание 2-D положения и встраивание изображения.

Внедрение двухмерного положения. В отличие от встраивания положения, которое моделирует положение слова в последовательности, встраивание двумерного положения направлено на моделирование относительного пространственного положения в документе. Чтобы представить пространственное положение элементов в отсканированных изображениях документов, мы рассматриваем страницу документа как систему координат с левым верхним началом. В этой настройке ограничительная рамка может быть точно определена как (x0, y0, x1, y1), где (x0, y0) соответствует положению верхнего левого угла в ограничительной рамке, а (x1, y1) представляет положение нижнего правого. Мы добавляем слои внедрения с четырьмя позициями с двумя таблицами внедрения, где слои внедрения, представляющие одно и то же измерение, совместно используют одну и ту же таблицу внедрения. Это означает, что мы ищем положение вложения x0 и x1 в таблице вложения X и ищем y0 и y1 в таблице Y.

Внедрение изображения. Чтобы использовать функцию изображения документа и выровнять функцию изображения с текстом, мы добавляем слой внедрения изображения для представления функций изображения в языковом представлении. Более подробно, ограничивающей рамкой каждого слова из результатов OCR мы разбиваем изображение на несколько частей, и они имеют взаимно однозначное
соответствие словам. Мы генерируем функции области изображения с этими фрагментами изображений из модели Faster R-CNN в качестве вложений изображений маркеров. Для токена [CLS] мы также используем модель Faster R-CNN для создания вложений с использованием всего отсканированного изображения документа в качестве области интереса (ROI), чтобы принести пользу последующим задачам, которым требуется представление токена [CLS].

Предварительно обученный макет LM

Маскированная модель визуального языка. Вдохновленная моделью маскированного языка, Маскированная модель визуального языка (MVLM) изучает языковое представление с помощью подсказок двухмерных вложений позиций и встраивания текста. Во время предварительной подготовки мы случайным образом маскируем некоторые из входных токенов, но сохраняем соответствующие двумерные вложения позиций, а затем модель обучается предсказывать замаскированные токены с учетом контекста. Таким образом, модель LayoutLM не только понимает языковые контексты, но также использует соответствующую двухмерную информацию о положении, тем самым преодолевая разрыв между визуальными и языковыми модальностями.

Многометочная классификация документов. Для понимания изображений документов многие задачи требуют, чтобы модель создавала высококачественные представления на уровне документа. Поскольку тестовая коллекция IIT-CDIP включает несколько тегов для каждого изображения документа, LayoutLM использует потерю классификации документов с несколькими метками (MDC) на этапе предварительной подготовки. Имея набор отсканированных документов, мы используем теги документов для наблюдения за процессом предварительного обучения, чтобы модель могла группировать знания из разных областей и генерировать лучшее представление на уровне документа. Поскольку для потери MDC требуется метка для каждого изображения документа, которая может не существовать для больших наборов данных, она является необязательной во время предварительного обучения и может не использоваться для предварительного обучения больших моделей в будущем.

Модель layoutLM предварительно обучена на тестовой коллекции IIT-CDIP 1.0, которая содержит более 6 миллионов документов с более чем 11 миллионами отсканированных изображений документов.

Тонкая настройка макета LM

Предварительно обученная модель LayoutLM точно настроена на три задачи понимания изображения документа, включая задачу понимания формы, задачу понимания квитанции, а также задачу классификации изображения документа.

Для задач понимания форм и квитанций LayoutLM прогнозирует теги {B, I, E, S, O} для каждого маркера и использует последовательную маркировку для обнаружения каждого типа объекта в наборе данных. Набор данных SROIE используется для целей

Для задачи классификации изображения документа LayoutLM прогнозирует метки классов, используя представление токена [CLS]. Для этой цели используются набор данных FUNSD и набор данных RVL-CDIP.

Справочник

LayoutLM: предварительная подготовка текста и макета для понимания изображения документа: 1912.13318

Примечание.

Существующая модель предоставляет только языковую модель, то есть встраивания LayoutLM, а не окончательные слои, которые объединяют визуальные функции.

Дополнительные пояснения см. в разделе LayoutLMv1.

Макет LM v1 в действии

Вот реализации Layout LM для пользовательских наборов данных.

  1. Классификация документов
  2. Извлечение информации

Просмотреть все темы этой серии здесь