Понимание сверточных сетей

Сверточные сети или сверточные нейронные сети (CNN) стали доминирующим подходом к машинному обучению для визуального распознавания. Они повсеместно используются в области компьютерного зрения. Я начал работать над задачами обнаружения видеообъектов в начале этого года и был настолько очарован тем, как работает весь процесс. Я решил узнать больше о CNN и поделиться тем, что я нашел. Я бы начал с разговора о том, что меня смутило.

Являются ли CNN такими же, как модели обнаружения объектов?

Доступны несколько CNN, например, AlexNet, VGGNet, GoogLeNet, DarkNet-19 и ResNet. Эти сети в основном используются для задач классификации объектов и оцениваются с помощью некоторых широко используемых эталонных тестов и наборов данных, таких как ImageNet. При классификации изображений или распознавании изображений классификатор классифицирует один объект на изображении, выводит одну категорию для каждого изображения и дает вероятность соответствия классу.

При обнаружении объектов модель должна распознавать несколько объектов на одном изображении и предоставлять координаты, определяющие местоположение объектов. Это показывает, что для обнаружения объектов требуется гораздо больше, чем просто классификация изображений.

CNN имодели обнаружения объектов различаются, разница в том, что первые используются во вторых. Например, AlexNet используется в таких моделях обнаружения объектов, как R-CNN и HyperNet, GoogLeNet в основном используется в модели обнаружения объектов YOLO и DarkNet-19 используется в YOLOv2. VGG-16 используется в моделях обнаружения объектов, таких как Fast R-CNN и Faster R-CNN, а ResNet-101 также используется в Faster R-CNN.

Что такое CNN?

CNN — это тип нейронной сети, а другими типами являются искусственная нейронная сеть (ANN) и рекуррентная нейронная сеть (RNN). CNN состоит из нескольких слоев нейронов (расположенных в двух измерениях), каждый из которых представляет собой нелинейную операцию линейного преобразования выходов предыдущего слоя. Его функции можно разделить на извлечение/обучение признаков и классификацию. Этап выделения признаков предшествует классификации. Feature Learning включает компоненты Convolution, ReLU и Pooling с многочисленными итерациями между ними. Классификация использует компоненты Flattening и Full Connection.

CNN извлекают функции из данных с топологией, подобной сетке, таких как цифровое изображение. Изображение хранится в бинарном виде и делится на матрицу пикселей. Каждый пиксель состоит из цифрового значения одного или нескольких битов. Как правило, цифровое изображение состоит из определенного количества столбцов и строк пикселей, которые указывают яркость каждого цвета изображения. На рисунке мы видим значения пикселей в десятичном формате, но компьютер использует эти значения в двоичном формате (биты, образующие байты).

Компоненты CNN

Сверточная сеть состоит из следующих основных частей: сверточный слой, объединяющий слой и полносвязный слой.

Сверточный слой – это первый уровень CNN, состоящий из фильтров или ядер, которые меньше входного изображения. Сверточный слой принимает тензор изображения в качестве входных данных, применяет определенное количество сверточных фильтров(может быть 25 или 5) к тензору изображения, добавляет смещение и применяет нелинейный функция активации (обычно ReLU) на выходе. Целью сверточных слоев является извлечение шаблонов и информации из изображения. Сверточные фильтры в начале сети отвечают за захват функций низкого уровня, таких как цвет и ориентация градиента. Сверточные фильтры/ядра, расположенные глубже в сети, отвечают за захват функций высокого уровня, таких как края изображения.

Слой объединения отвечает за выполнение ряда операций объединения (максимальное или среднее) над изображением. Объединение слоев реализует операцию уменьшения пространственной размерности, предназначенную для уменьшения количества обучаемых параметров для следующих слоев и позволяя им сосредоточиться на более крупных областях входного шаблона.

Полносвязный слой использует ИНС и отвечает за прием плоского вектора изображения (тензор одномерного изображения) в качестве входных данных и определение оценки вероятности для каждой метки в обучающем наборе данных. Как следует из названия, каждый нейрон в полносвязном слое полностью связан с каждым другим нейроном в предыдущем слое.

Другими необходимыми компонентами CNN являются Dropout, функции активации, заполнения, слои пакетной нормализации и слои Flatten. Функция активации добавляется в сеть где-то между двумя сверточными слоями или в конце сети. Он решает, какая информация должна быть в выводе, а какая нет. Существуют как линейные, так и нелинейные функции активации, выполняющие линейные и нелинейные преобразования. Примеры функций активации включают функции активации ReLU (выпрямленная линейная единица), Softmax, tanh и Sigmoid. Метод Dropout уменьшает переобучение и улучшает ошибки обобщения, случайным образом удаляя выбранные нейроны во время обучения. Техника пакетной нормализации стандартизирует входные данные в сеть, применяемые либо к активации на предыдущем уровне, либо непосредственно к входным данным. Заполнениедобавляет дополнительные пиксели за пределы изображения, чтобы предотвратить потерю информации. Слой Flatten преобразует многомерный вектор в одномерный, чтобы его можно было обработать классификатором для прогнозирования классов.

Если вы где-то это видели и вам интересно, что это такое, карта объектов – это результат применения фильтра к изображению или входным данным фильтра.

Заключение

Была прояснена разница между архитектурами CNN и моделями обнаружения объектов, а также хорошо объяснено множество различных компонентов CNN. Я очень надеюсь, что эта статья помогла вам понять, что такое CNN. В следующих статьях я расскажу, как создать CNN с нуля на Python.

Свяжитесь со мной в LinkedIn и Twitter.

Ссылки

Основы сверточных нейронных сетей для обнаружения объектов
Обнаружение объектов на изображениях — чрезвычайно важный шаг во многих приложениях для анализа изображений и видео. Объект…link.springer.com

Сверточные сети с высокой плотностью соединений
Недавняя работа показала, что сверточные сети могут быть значительно более глубокими, точными и эффективными для обучения, если…arxiv.org

Построение сверточной нейронной сети — Click Reader
К настоящему моменту мы получили все базовые знания, необходимые для построения сверточной нейронной сети. Теперь пришло время…www.theclickreader.com

Сверточная нейронная сеть с объяснением кода Python | сверточный слой | Максимальное объединение в…
Сверточные нейронные сети — это нейронные сети, которые в основном используются для классификации изображений, обнаружения объектов, лиц…www.analyticssteps.com

Объяснение различных типов архитектур CNN: примеры — анализ данных
Архитектуры CNN — самая популярная среда глубокого обучения. CNN используются для различных приложений…vitalflux.com

ANN против CNN против RNN | Типы нейронных сетей
Познакомьтесь с 3 различными типами нейронных сетей в глубоком обучении. Поймите, когда какой тип нейронной сети использовать для…www.analyticsvidhya.com

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning