Привет, мир!

Системы распознавания имеют множество практических приложений. И многие компании нуждаются в создании таких систем для оптимизации своих бизнес-процессов, не только таким гигантам индустрии, как Google, Baidu, Facebook или Dropbox.

Например, в сфере здравоохранения некоторые компании разрабатывают автоматический экстрактор полей для различных форм пациента, включая страховые формы для ввода соответствующих данных в базу данных. Другие компании ориентированы на распознавание номерных знаков и так далее.

К счастью, у нас в DeepSystems есть опыт построения систем распознавания изображений. Но было очень сложно погрузиться в эту сферу из-за отсутствия информации в Интернете. Благодаря долгим исследованиям и чтению множества статей мы разработали понимание основных принципов создания эффективных систем распознавания.

И сегодня мы собираемся поделиться с вами своим пониманием и объяснить простым языком, как это работает.

Эта лекция состоит из двух частей. В первой части рассказывается о том, как проектировать архитектуру нейронной сети.

Часть 2 (скоро) содержит подробное объяснение того, как обучать такие системы, т.е. е. как выполнить прямую и обратную фазы CTC Loss. Мы считаем, что это чрезвычайно ценно, потому что невозможно найти красивое и простое объяснение того, как работает потеря CTC.

Вот ссылка на слайды.

Часть 1:

Спасибо! Оставайтесь с нами. Не стесняйтесь задавать вопросы в комментариях.