Сегментация изображения может быть сформулирована как задача классификации пикселей с помощью семантических меток (семантическая сегментация) или разделения отдельных объектов (сегментация экземпляров) или того и другого (паноптическая сегментация).

Сегментация изображений является ключевой задачей в компьютерном зрении и обработке изображений с такими важными приложениями, как понимание сцены, анализ медицинских изображений, роботизированное восприятие, видеонаблюдение, дополненная реальность и сжатие изображений, среди прочего.

Сегментация изображений разделена на следующие категории:

  1. Полностью сверточные сети
  2. Сверточные модели с графическими моделями
  3. Модели на основе кодера-декодера
  4. Модели на основе многомасштабных и пирамидальных сетей
  5. Модели на основе R-CNN (например, сегментация)
  6. Расширенные сверточные модели и семейство DeepLab
  7. Модели на основе рекуррентных нейронных сетей
  8. Модели на основе внимания
  9. Генеративные модели и состязательное обучение

Глубокие архитектуры нейронных сетей

1. Сверточные нейронные сети

CNN обычно включают в себя три типа слоев: i) сверточные слои, где ядро ​​(или фильтр) весов свертывается для извлечения признаков; ii) нелинейные слои, которые применяют (обычно поэлементно) функцию активации к картам объектов, что позволяет сети моделировать нелинейные функции; и iii) объединяющие слои, которые снижают пространственное разрешение, заменяя небольшие окрестности на карте объектов некоторой статистической информацией об этих окрестностях (среднее значение, максимум и т. д.). Нейронные единицы в слоях связаны локально; то есть каждая единица получает взвешенные входные данные от небольшого соседства, известного как рецептивное поле, единиц в предыдущем слое. Складывая слои в пирамиды с разным разрешением, слои более высокого уровня изучают особенности все более широких рецептивных полей.

Основное вычислительное преимущество CNN заключается в том, что все рецептивные поля в слое имеют общие веса, что приводит к значительно меньшему количеству параметров, чем полностью связанные нейронные сети.

Waibel: представил CNN с весами, распределенными между временными рецептивными полями, и обучением обратному распространению для распознавания фонем.

LeCun: разработал практическую архитектуру CNN для распознавания документов.

2. Рекуррентные нейронные сети (RNN)

На каждом временном шаге t модель собирает входные данные xt и скрытое состояние h(t-1) с предыдущего шага и выводит целевое значение ot и следующее скрытое состояние h(t+1).

RNN обычно используются для обработки последовательных данных, таких как речь, текст, видео и временные ряды. RNN часто страдают от проблем с исчезновением или взрывом градиента.

3. Модели кодировщик-декодер и автокодировщик

Кодировщики-декодеры — это семейство моделей, которые учатся отображать точки данных из входного домена в выходной домен через двухэтапную сеть. Кодер, выполняющий функцию кодирования z = g(x), сжимает входные данные x в представление z в скрытом пространстве, а декодер y = f(z) предсказывает выходные данные y по z. Скрытое или функциональное (векторное) представление фиксирует семантическую информацию о входных данных, полезную для прогнозирования выходных данных.

Такие модели популярны для моделирования последовательности в последовательности в приложениях обработки естественного языка (NLP), а также для преобразования изображения в изображение.

4. Генеративно-состязательные сети (GAN)

GAN состоят из двух сетей — генератора и дискриминатора. В обычной GAN сеть генераторов G изучает отображение шума z (с априорным распределением) в целевое распределение y, которое аналогично «реальным» образцам. Сеть дискриминатора D пытается отличить сгенерированные «поддельные» образцы от настоящих. GAN можно охарактеризовать как минимаксную игру между G и D, где D пытается минимизировать свою ошибку классификации при различении поддельных выборок от реальных, тем самым максимизируя функцию потерь, а G пытается максимизировать ошибку сети дискриминатора, следовательно, минимизируя потери. функция.

МОДЕЛИ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ НА ОСНОВЕ ГО

1. Полностью сверточные модели

FCN включает только сверточные слои, что позволяет ему выводить карту сегментации, размер которой такой же, как у входного изображения. За счет использования пропускных соединений карты объектов из последних слоев модели подвергаются повышающей дискретизации и объединяются с картами объектов более ранних слоев. для получения точной и подробной сегментации.

FCN применялись для решения различных задач сегментации, таких как сегментация опухоли головного мозга, семантическая сегментация с учетом экземпляров, сегментация кожных повреждений и сегментация радужной оболочки.

Обычная модель FCN имеет некоторые ограничения: она слишком затратна в вычислительном отношении для логического вывода в реальном времени, она не учитывает информацию о глобальном контексте эффективным образом и ее нелегко обобщить на трехмерные изображения.

2. CNN с графическими моделями

FCN игнорирует потенциально полезный семантический контекст уровня сцены. Чтобы использовать больше контекста, несколько подходов включают в архитектуры DL вероятностные графические модели, такие как условные случайные поля (CRF) и марковские случайные поля (MRF).

Чен : предложил алгоритм семантической сегментации, который сочетает в себе CNN и полносвязные CRF. Они показали, что их модель может локализовать границы сегментов с большей точностью, чем это было возможно с помощью предыдущих методов.

Швинг и Уртасун: они совместно обучили CNN и полносвязные CRF для семантической сегментации изображений и добились обнадеживающих результатов на сложном наборе данных PASCAL VOC 2012.

Лью: предложил алгоритм семантической сегментации, который включает в MRF обширную информацию, включая отношения более высокого порядка и смесь контекстов меток. В отличие от предыдущих усилий, которые оптимизировали MRF с использованием итерационных алгоритмов, они предложили модель CNN, а именно сеть синтаксического анализа, которая обеспечивает детерминированные сквозные вычисления за один проход.

3. Модели на основе кодера-декодера

Мы разделяем эти модели на две категории: модели для общей сегментации изображений и модели для сегментации медицинских изображений.

Общая сегментация изображений:

Нет: предложенная DeConvNet состоит из двух частей: кодировщика, использующего сверточные слои, заимствованные из 16-слойной сети VGG, и многослойной деконволюционной сети, которая вводит вектор признаков и создает карту вероятностей классов с точностью до пикселя. . Последний включает слои деконволюции и распаковки, которые идентифицируют попиксельные метки классов и предсказывают маски сегментации.

Сегментация медицинских и биомедицинских изображений:

Роннебергер: предложил U-Net для эффективной сегментации изображений, полученных при биологической микроскопии. Архитектура U-Net состоит из двух частей: сокращающегося пути для захвата контекста и симметричного расширяющегося пути, обеспечивающего точную локализацию.

4. Модели на основе многомасштабных и пирамидальных сетей

Lin: предложенная сеть функциональных пирамид (FPN), которая была разработана для обнаружения объектов, но также применялась для сегментации. Присущая глубоким CNN многомасштабная пирамидальная иерархия использовалась для построения пирамиды функций с минимальными дополнительными затратами. Чтобы объединить функции низкого и высокого разрешения, FPN состоит из восходящего пути, нисходящего пути и боковых соединений. Объединенные карты объектов затем обрабатываются сверткой 3X3 для получения выходных данных каждого этапа. Наконец, каждый этап нисходящего пути генерирует прогноз для обнаружения объекта. Для сегментации изображений авторы используют два многослойных персептрона (MLP) для создания масок.

Чжао: разработал сеть разбора сцен Pyramid (PSPN), многомасштабную сеть для лучшего изучения представления сцены в глобальном контексте. Несколько шаблонов извлекаются из входного изображения с использованием остаточной сети (ResNet) в качестве экстрактора признаков с расширенной сетью. Эти карты функций затем передаются в модуль объединения пирамид, чтобы различать шаблоны разных масштабов. Они объединяются в четыре разных масштаба, каждый из которых соответствует уровню пирамиды, и обрабатываются сверточным слоем 1X1 для уменьшения их размеров. Выходные данные уровней пирамиды подвергаются повышающей дискретизации и объединяются с первоначальными картами объектов для сбора информации как о локальном, так и о глобальном контексте. Наконец, сверточный слой используется для генерации попиксельных прогнозов.

5. Модели на основе R-CNN

Региональный CNN (R-CNN) и его расширения доказали свою эффективность в приложениях для обнаружения объектов. В частности, архитектура Faster R-CNN использует сеть предложений регионов (RPN), которая предлагает кандидатов ограничивающей рамки. RPN извлекает область интереса (RoI), а слой RoIPool вычисляет функции из этих предложений, чтобы сделать вывод о координатах ограничивающей рамки и классе объекта. Некоторые расширения R-CNN использовались для решения проблемы сегментации экземпляров; т. е. задача одновременного выполнения обнаружения объекта и семантической сегментации.

Он: предложил Mask R-CNN, который превзошел предыдущие тесты по многим задачам сегментации экземпляров объектов COCO, эффективно обнаруживая объекты на изображении и одновременно создавая высококачественную маску сегментации для каждого экземпляра. По сути, это Faster R-CNN с 3 выходными ветвями — первая вычисляет координаты ограничивающей рамки, вторая вычисляет связанные классы, а третья вычисляет двоичную маску для сегментации объекта. Функция потерь Mask R-CNN объединяет потери координат ограничивающей рамки, прогнозируемого класса и маски сегментации и обучает их все вместе.

6. Расширенные сверточные модели

Чен: разработал DeepLabv2, одну из самых популярных моделей сегментации изображений. Он имеет три ключевые особенности. Во-первых, это использование расширенной свертки для устранения снижения разрешения в сети, вызванного максимальным пулом и шагом. Во-вторых, Atrous Spatial Pyramid Pooling (ASPP), который исследует входящий слой сверточных объектов с помощью фильтров с несколькими частотами дискретизации, таким образом захватывая объекты, а также многомасштабный контекст изображения для надежного сегментирования объектов в нескольких масштабах. В-третьих, это улучшенная локализация границ объектов за счет объединения методов глубоких CNN, таких как полностью сверточные VGG-16 или ResNet 101, и вероятностных графических моделей, в частности полносвязных CRF.

Чен: предложил DeepLabv3, который сочетает в себе каскадные и параллельные модули расширенных сверток. Модули параллельной свертки сгруппированы в ASPP. В ASPP добавлены свертка 1X1 и нормализация партии. Все выходные данные объединяются и обрабатываются еще одной сверткой 1X1 для создания окончательного вывода с логитами для каждого пикселя.

7. Модели на основе RNN

Хотя CNN естественным образом подходят для решения проблем компьютерного зрения, они не единственная возможность. RNN полезны при моделировании краткосрочных и долгосрочных зависимостей между пикселями, чтобы (потенциально) улучшить оценку карты сегментации. Используя RNN, пиксели могут быть связаны друг с другом и обрабатываться последовательно для моделирования глобальных контекстов и улучшения семантической сегментации.

Visin: предложил модель семантической сегментации на основе RNN под названием ReSeg. Эта модель в основном основана на ReNet, которая была разработана для классификации изображений. Каждый уровень ReNet состоит из четырех RNN, которые перемещают изображение по горизонтали и вертикали в обоих направлениях, кодируя исправления/активации и предоставляя соответствующую глобальную информацию. Чтобы выполнить сегментацию изображения с помощью модели ReSeg, слои ReNet накладываются поверх предварительно обученных сверточных слоев VGG-16, которые извлекают общие локальные признаки, а затем следуют слои с повышающей дискретизацией для восстановления исходного разрешения изображения в окончательных прогнозах. Недостатком моделей на основе RNN является то, что они, как правило, будут медленнее, чем их аналоги CNN, поскольку их последовательный характер не поддается распараллеливанию.

8. Модели, основанные на внимании

Чен: предложил механизм внимания, который учится мягко взвешивать многомасштабные функции в каждом местоположении пикселя. Они адаптируют мощную модель семантической сегментации и совместно обучают ее многомасштабным изображениям и модели внимания. Модель присваивает большие веса человеку (зеленый пунктирный кружок) на заднем плане для признаков масштаба 1,0, а также большому ребенку (пурпурный пунктирный кружок) для признаков масштаба 0,5. Механизм внимания позволяет модели оценивать важность функций в разных положениях и масштабах и превосходит среднее и максимальное объединение.

Ли: разработал пирамидальную сеть внимания для семантической сегментации, которая использует глобальную контекстную информацию для семантической сегментации. Избегая сложных расширенных сверток и сетей декодирования, они объединили механизмы внимания и пространственные пирамиды, чтобы извлечь точные плотные функции для маркировки пикселей.

9. Генеративные модели и состязательное обучение

Люк: предложил состязательный подход к обучению семантической сегментации, в котором они обучили сеть сверточной семантической сегментации вместе с состязательной сетью, которая различает карты сегментации, основанные на реальных данных, и карты, сгенерированные сетью сегментации.

Hung: разработал структуру для полуконтролируемой семантической сегментации с использованием состязательной сети. Они разработали дискриминатор FCN, чтобы отличать предсказанные карты вероятностей от наземного распределения сегментации истинности с учетом пространственного разрешения. Функция потерь этой модели имеет три члена: перекрестная энтропийная потеря на основе истинности сегментации, состязательная потеря сети дискриминатора и частично контролируемая потеря, основанная на выводе карты достоверности дискриминатора.

НАБОРЫ ДАННЫХ

Наборы данных 2D-изображений

  1. Класс визуальных объектов PASCAL (VOC): изображения, которые можно разделить на 21 класс.
  2. Контекст PASCAL: изображения, которые можно разделить на 59 классов.
  3. Microsoft Common Objects in Context: 91 тип объектов на 328 000 изображений.
  4. Городские пейзажи: 30 классов, сгруппированных в 8 категорий: плоские поверхности, люди, транспортные средства, конструкции, объекты, природа, небо и пустота.
  5. SiftFlow: включает 2688 аннотированных изображений из подмножества базы данных LabelMe 8 различных наружных сцен, среди которых улицы, горы, поля, пляжи и здания, и в одном из 33 семантических классов.

2.5 Наборы данных

  1. ScanNet – это набор видеоданных RGB-D, содержащий 2,5 миллиона просмотров в более чем 1 500 сканированных изображениях, аннотированных позами 3D-камеры, реконструкциями поверхностей и семантическими сегментами на уровне экземпляров.
  2. SUN RGB-D предоставляет эталонный показатель RGB-D для продвижения передовых технологий во всех основных задачах понимания сцены. Он захватывается четырьмя различными датчиками и содержит 10 000 изображений RGB-D в масштабе, аналогичном PASCAL VOC.
  3. Stanford 2D-3D предоставляет множество взаимно зарегистрированных 2D, 2,5D и 3D модальностей с семантическими и геометрическими аннотациями на уровне экземпляра, полученными из 6 внутренних помещений. Он содержит более 70 000 изображений RGB, а также соответствующие глубины, нормали поверхности, семантические аннотации, а также глобальные изображения XYZ, информацию о камере и зарегистрированные необработанные и семантически аннотированные трехмерные сетки и облака точек.
  4. UW RGB-D Набор данных объектов, который содержит 300 обычных предметов домашнего обихода, записанных с помощью сенсора в стиле Kinect.
  5. NYU-Depth V2 состоит из видеофрагментов различных внутренних сцен, записанных RGB-камерами и камерами глубины Microsoft Kinect. Он включает в себя 1449 плотно размеченных пар изображений RGB и глубины, содержащих более 450 сцен, взятых из 3 городов. Каждый объект помечен классом и номером экземпляра (например, cup1, cup2, cup3 и т. д.). Он также содержит 407 024 немаркированных кадра.

ВЫЗОВЫ И ВОЗМОЖНОСТИ

  1. Более сложные наборы данных. Для неподвижных изображений наборы данных с большим количеством объектов и перекрывающихся объектов будут очень полезны.
  2. Сочетание глубокого обучения и более ранних моделей сегментации. Интеграция CNN с графическими моделями изучалась, но их интеграция с активными контурами, разрезами графа и другими моделями сегментации появилась относительно недавно и заслуживает дальнейшей работы.
  3. Интерпретируемые глубинные модели. Лучшее понимание теоретических аспектов этих моделей может помочь в разработке более качественных моделей, адаптированных к различным сценариям сегментации.
  4. Слабо контролируемое и неконтролируемое обучение
  5. Модели в реальном времени для различных приложений: это полезно для систем компьютерного зрения, которые, например, развернуты в автономных транспортных средствах. Большинство современных моделей далеки от этой частоты кадров;
  6. Модели с эффективным использованием памяти. Многие современные модели сегментации требуют значительного объема памяти даже на этапе логического вывода. До сих пор много усилий было направлено на повышение точности таких моделей, но для того, чтобы вписать их в конкретные устройства, такие как мобильные телефоны, сети должны быть упрощены.

Эта статья основана на статье «Сегментация изображений с использованием глубокого обучения: опрос», написанной Шервином Минаи, членом IEEE, Юрием Бойковым, членом IEEE, Фатихом Порикли, научным сотрудником IEEE, Антонио Плаза, научный сотрудник IEEE, Нассер Кехтарнаваз, научный сотрудник IEEE, и Деметри Терзопулос, научный сотрудник IEEE