Извлечение сущностей стало проще благодаря Google Document AI!!!
Извлечение сущностей — это видный пример использования, который особенно характерен для каждой отрасли в сфере финансов и банковского дела, где автоматизация адресов клиентов и проверки личности может быть выгодной. Извлечение сущностей обычно используется в отраслевых сценариях использования, которые включают обработку документов, анализ документов, проверку и проверку документов. Я помню, как работал над проектами по извлечению сущностей из водительских удостоверений, паспортов, форм и т. д., используя механизмы OCR с открытым исходным кодом, такие как easyocr, paddle ocr и tesseract. Хотя эти решения OCR работают очень хорошо для извлечения текста из документов, но требуют обширной предварительной обработки изображений для входных данных и постобработки извлеченного текста для извлечения необходимых объектов из этих документов. Я также работал над вариантами использования для извлечения сущностей, используя модель распознавания сущностей имени Bert и CRFsuite. Хотя все эти модели показали проверенные результаты в прошлом, использование этих моделей требует от разработчика знаний в области глубокого обучения, компьютерного зрения и разработки логики постобработки, для чего требуются опытные инженеры по машинному обучению или специалисты по данным.
Google упростил эту задачу, представив Document AI в своей облачной платформе Google (GCP). Document AI — это продукт Google, который использует технологию естественного языка и компьютерного зрения (OCR) для создания предварительно обученных моделей для обработки ценных и объемных документов. Document AI API можно использовать для создания индивидуальных клиентских решений для более быстрого принятия решений. Следуйте https://cloud.google.com/document-ai для получения дополнительной информации о Document AI. API имеет ряд процессоров для использования. Мы можем выбрать процессор по мере необходимости для нашего варианта использования.
Доступны синтаксические анализаторы документов
- Распознавание документов: это общий доступный процессор, который можно использовать для любого документа для извлечения текста. Этот процессор позволяет нам идентифицировать и извлекать текст из документов на более чем 200 языках для печатного текста и 50 языках для рукописного текста.
- Анализатор формы: этот анализатор можно использовать, когда нам нужно извлечь элементы формы, т. е. информацию, присутствующую в документе формы. Синтаксический анализатор возвращает всю информацию о значении ключа, присутствующую в документе.
- Анализатор счетов: Извлечение текста и значений из счетов, таких как номер счета, имя поставщика, сумма счета, сумма налога, дата счета и срок оплаты. Парсер счетов-фактур извлекает поля заголовков и позиций, такие как номер счета-фактуры, имя поставщика, сумма счета-фактуры, сумма налога, дата счета-фактуры, срок оплаты и суммы отдельных позиций.
- Парсер платежной ведомости: этот парсер используется для обработки информации документа платежной ведомости.
- Анализатор водительских прав: для извлечения значений полей из водительских прав. В настоящее время доступны два анализатора водительских прав: анализатор водительских прав США и анализатор водительских прав Франции.
- Парсер паспорта: Парсер паспорта извлекает объекты из документа паспорта. В настоящее время доступны два анализатора паспортов: анализатор паспортов США и анализатор паспортов Франции.
- Анализатор национального удостоверения личности: этот анализатор можно использовать для извлечения объектов национального удостоверения личности. В настоящее время парсер национального идентификатора Франции доступен в Document AI.
- Анализатор коммунальных услуг: извлечение текста и значений из счетов за коммунальные услуги, таких как имя поставщика и ранее уплаченная сумма.
Google постоянно обновляет свои парсеры, и ожидается, что в будущем будет доступно больше парсеров. Список всех доступных парсеров можно найти по адресу https://cloud.google.com/document-ai/docs/processors-list. Все эти синтаксические анализаторы прошли обучение на десятках миллиардов страниц документов из кредитной, страховой, государственной и других отраслей. Я использовал большинство синтаксических анализаторов и обнаружил, что точность извлечения очень высока для моего варианта использования.
Как использовать ИИ для документов
Использовать Document AI API в облаке Google очень просто
- Войдите в свою учетную запись GCP
- В строке поиска найдите Document AI.
- Перейти к созданию процессора.
- Выберите процессор, подходящий для вашего варианта использования
- Document AI создает конечную точку прогнозирования, куда вы можете отправлять свои документы.
- Вызовите эту конечную точку прогноза из кода Python, чтобы получить прогноз.
- Выходные данные прогноза представляют собой формат JSON.
- Получив ответ JSON, прочитайте JSON и извлеките необходимые объекты.
Вы можете создать процессор с помощью графического пользовательского интерфейса Document AI или предоставленных Google клиентских библиотек Python. Следуйте https://cloud.google.com/document-ai/docs/create-processor, чтобы создать процессор с помощью клиентской библиотеки.
Document AI поддерживает как синхронные, так и асинхронные вызовы API. Для обработки одного документа используйте синхронный вызов API, а для обработки нескольких документов — асинхронный вызов API. Следуйте https://cloud.google.com/document-ai/docs/send-request, чтобы отправить запрос прогноза.
Документировать лимиты и квоты ИИ
Самое главное, что мы должны помнить при использовании API-интерфейса Document AI, — это его ограничения и квоты. Мы делаем вызовы API, чтобы использовать любой сервис или компоненты GCP, поэтому наличие лимита запросов для любого API очень типично. Google предоставил документацию по ограничениям и квотам для всех своих компонентов GCP, которые очень полезны при разработке решений и их необходимо помнить перед использованием любого сервиса. Таким образом, перед использованием сервиса разработчик должен ознакомиться с документацией по лимиту и квотам. Документацию по ограничениям и квотам Document AI можно найти по адресу https://cloud.google.com/document-ai/quotas.