Понимание ML
Эволюция машин экстремального обучения
Как ELM развивались на протяжении многих лет и каков их статус сейчас?
Примечание! Это всего лишь общий обзор эволюции ELM. Он не включает все возможные версии и изменения, внесенные в ELM за последние годы.
Что такое ELM?
ELM (Extreme Learning Machines) - нейронные сети прямого распространения. «Изобретен» в 2006 году Г. Хуанг, и он основан на идее аппроксимации обратной матрицы.
Если вы не знакомы с ELM, пожалуйста, сначала ознакомьтесь с моей статьей Введение в машины экстремального обучения.
Когда началась эволюция?
И-ЭЛМ (2006)
После первоначальной публикации в 2006 году Хуанг и его соратники опубликовали еще одну статью о другом типе ELM под названием I-ELM (инкрементный ELM). Как следует из названия, I-ELM - это инкрементная версия стандартной сети ELM. Идея I-ELM довольно проста:
Определите максимальное количество скрытых узлов L и ожидаемую точность обучения ϵ Начиная с l = 0 (l - текущее количество скрытых узлов):
- Приращение l_t = l_ {t-1} + 1
- Инициализировать веса w_l и смещение b_l вновь добавленного скрытого нейрона случайным образом (не повторно инициализировать уже существующие нейроны)
- Вычислить выходной вектор H
- Вычислить вектор веса β ^
- Вычислить ошибку после добавления узла
- Проверьте, есть ли E ‹ϵ
- Если нет, увеличьте количество скрытых узлов и повторите процесс.
Есть вероятность, что l ›L в какой-то момент процесса и E› ϵ. На этом этапе мы должны повторить весь процесс обучения и инициализации.
Идея увеличения размера сети не нова и обычно дает лучшие результаты, чем установка размера сети «вручную». Есть один недостаток, который особенно важен с точки зрения ELM… времени вычислений. Если ваша сеть окажется большой (допустим, 1000 скрытых узлов), в худших случаях нам придется сделать 1000 инверсий матриц.
Если вас интересует I-ELM, знайте, что существует множество его разновидностей:
- II-ELM (улучшенный I-ELM)
- CI-ELM (выпуклый I-ELM)
- EI-ELM (усилить I-ELM)
Я не собираюсь объяснять каждый из них, потому что эта статья должна быть просто кратким резюме и местом для начала, а не всей книгой обо всех вариантах ELM. Кроме того, наверное, каждый человек, читающий это, попал сюда не по ошибке и знает, как найти дополнительную информацию по интересной теме, если он / она знает, что искать: P
П-ЭЛМ (2008)
После введения инкрементной версии ELM еще одним улучшением было использование сокращения для достижения оптимальной структуры сети. P-ELM (сокращенный ELM) был представлен в 2008 году Хай-Цзюнь Ронгом. Алгоритм начинается с очень большой сети и удаляет узлы, не относящиеся к прогнозам. Под «нерелевантным» мы подразумеваем, что узел не участвует в прогнозировании выходного значения (т.е. выходное значение близко к 0). Эта идея позволила создать классификаторы меньшего размера и в основном подходит для классификации шаблонов.
ЭМ-ВЯЗ (2009)
Эта версия ELM не является отдельной версией, а является улучшением I-ELM. EM расшифровывается как Error-Minimized и позволяет добавлять группу узлов вместо одного. Эти узлы вставляются в сеть случайным образом, пока ошибка не станет ниже ϵ.
Регулярный ELM (2009)
Начиная с 2009 года, Чжэн изучал стабильность и обобщающие характеристики ELM. Ему и его команде пришла в голову идея добавить регуляризацию к исходной формуле для вычисления β ^.
Прямо сейчас это выглядит так:
TS-ELM (2010)
Двухступенчатый ELM (TS-ELM) был предложением еще раз минимизировать структуру сети. Как видно из названия, он состоит из двух этапов:
- Применение прямого рекурсивного алгоритма для выбора скрытых узлов из кандидатов, генерируемых случайным образом на каждом шаге. Скрытые узлы добавляются до тех пор, пока не будет найден критерий остановки.
- Обзор существующей структуры. Даже если мы создадим сеть с минимальным количеством узлов, соответствующим нашему критерию, некоторые из них могут оказаться бесполезными. На этом этапе мы собираемся удалить неважные узлы.
КЕЛМ (2010)
Был представлен ELM на основе ядра (KELM), который использует функцию ядра вместо H ^ T H. Эта идея была вдохновлена SVM, и основная функция ядра, используемая с ELM, - это RBF (Радиальная базовая функция). KELM используются для разработки Deep ELM.
В-ЭЛМ (2012)
ELM на основе голосования (V-ELM) был предложен в 2012 году для повышения производительности при выполнении задач классификации. Проблема заключалась в том, что стандартный процесс обучения ELM мог не достичь оптимальной границы для классификации, а затем случайного добавления узлов. Из-за этого некоторые образцы, которые находятся рядом с этой границей, могут быть неправильно классифицированы. В V-ELM мы обучаем не одну сеть, а множество из них, а затем, основываясь на методе голосования большинством, выбираем оптимальную.
ЭЛМ-АЕ (2013)
Когда в 2013 году стали популярными идеи вроде RBM и автоэнкодеры, Касну выпустил статью об ELM-AE (ELM Auto-Encoders). Основная цель - уметь воспроизводить входной вектор так же, как это делают стандартные автоэнкодеры. Структура ELM-AE выглядит так же, как и стандартный ELM.
Существует три типа ELM-AE:
- Сжатие. Пространство ввода более высокой размерности для скрытого слоя более низкой размерности (меньше скрытых узлов, чем ввод).
- Равное представительство. Размерность данных остается прежней (одинаковое количество узлов в скрытых и входных данных)
- Спарсинг. От низкоразмерного входного пространства до многомерного скрытого слоя (больше скрытых узлов, чем на входе)
Есть два основных различия между стандартными ELM и ELM-AE. Во-первых, ELM-AE не контролируется. На выходе мы используем те же векторы, что и на входе. Во-вторых, веса в ELM-AE ортогональны, то же самое касается смещения в скрытом слое. Это важно, потому что ELM-AE используется для создания глубокой версии ELM.
МЛЭЛМ (2013)
В той же статье (Репрезентативное обучение с помощью ELM для больших данных) Касну предложил версию ELM под названием Multi-Layer ELM. Эта идея основана на составных автокодировщиках и состоит из нескольких ELM-AE.
Вы можете спросить: «Зачем вообще создавать что-то похожее на составные автокодеры, но с ELM?». Если мы посмотрим, как работает MLELM, то увидим, что он не требует тонкой настройки. Это значительно ускоряет создание сетей со стандартными автокодировщиками. Как я уже сказал, MLELM использует ELM-AE для обучения параметров в каждом слое и удаляет выходные слои, поэтому у нас остаются только входные и скрытые слои ELM-AE.
ДЕЛМ (2015)
Deep ELM - одна из новейших (и последних основных итераций в развитии ELM на момент написания этой статьи). DELM основаны на идее MLELM с использованием KELM в качестве выходного уровня.
Вывод
ELM развивались на протяжении многих лет и определенно копировали некоторые важные идеи из области машинного обучения. Некоторые из этих идей действительно отлично работают и могут быть полезны при разработке реальных моделей. Вы должны помнить, что это всего лишь краткое изложение того, что произошло в области ELM, а не полный обзор (даже близко). Очень вероятно, что если вы введете какой-то префикс перед ELM, то уже есть версия ELM с этим префиксом :)
Использованная литература:
- Гуан-Бинь Хуанг, Цинь-Ю Чжу, Чи-Кхеонг Сью. Экстремальная обучающая машина: теория и приложения, 2006 г. Публикация
- Гуан-Бинь Хуанг, Лей Чен, Чи-Кхеонг Сью. Универсальное приближение с использованием инкрементных конструктивных сетей прямого распространения со случайными скрытыми узлами, 2006 г. Публикация
- Ронг, Хай-Джун и Онг, Ю и Тан, А-Хви и Чжу, Цзэсюань. (2008). Быстрая машина для экстремального обучения классификационным задачам. Нейрокомпьютеры. Публикация
- Фэн, Гуоруй и Хуанг, Гуан-Бин и Линь, Цинпин и Гей, Роберт. (2009). Машина экстремального обучения с минимизацией ошибок с ростом количества скрытых узлов и постепенного обучения. Публикация
- Ванью, Дэн и Чжэн, Цинхуа и Чен, Линь. (2009). Регулярная машина экстремального обучения. Публикация
- Лан, Ю., Со, Ю. К., и Хуанг, Г.-Б. (2010). Двухэтапная машина для экстремального обучения регрессу. Публикация
- Сяо-цзянь Дин, Сяо-гуан Лю и Синь Сюй. 2016. Метод оптимизации экстремальной обучающей машины для регрессии. Публикация
- Цао, Цзювэнь и Линь, Чжипин и Хуанг, Гуан-Бинь и Лю, Нан. (2012). Машина для экстремального обучения на основе голосования. Публикация
- Касун, Лиянаараччи и Чжоу, Хунмин и Хуанг, Гуан-Бин и Вонг, Чи-Ман. (2013). Репрезентативное обучение с помощью ELM для больших данных. Публикация
- Дин, Шифэй и Чжан, Нань и Сюй, Синьчжэн и Го, Лили и Чжан, Цзянь. (2015). Машина глубокого экстремального обучения и ее применение в классификации ЭЭГ. Публикация
Первоначально опубликовано на https://erdem.pl.