Теория против эксперимента в нейронных сетях

Я рассматриваю машинное обучение как дисциплину с такими же масштабами и мощью по сравнению с ее предшественниками в области анализа, как и вычисления. Будущие историки могут рассматривать нашу эпоху как пограничный период, как, например, противоречие между Лейбницем и Ньютоном, когда различные формальные утверждения методов машинного обучения кажутся различаются, а обозначения противоречат друг другу. Определенная степень эквивалентности методов была выявлена, однако область в целом фрагментирована множеством вариантов. Они будут преобразованы в элегантные и выразительные формы только после гораздо большего количества экспериментов и основных теоретических выводов.

Слепые:

Теория была первой для нейронных сетей. Математики на протяжении десятилетий делали фундаментальные выводы, демонстрирующие, что обучение приближает сеть к минимуму функции потерь. Исследователи чувствуют необходимость уговорить уравнения в доказательство этой способности. В результате они искали архитектуры, которые допускали такое доказательство, за исключением архитектур, которые было трудно доказать. Их функции активации, выбранные среди тех, которые обеспечивают нелинейность, были выбраны из-за их математической строгости: сигмоидальные кривые и гиперболические тангенсы позволили удобное математическое выражение градиента. Исследователи опасаются и избегают сетей с внешней памятью, например, которая не строго различается…

Тем не менее, эксперименты показали, что многие варианты фактически являются синонимами, генерируя результаты, которые имеют небольшую разницу в точности или скорости обучения, не различаются по сути. Обучите их достаточно долго, и эти различные сети также достигнут схожих границ принятия решений. SVM и CNN устанавливают границы принятия решений, которые достаточно близки, так что состязательные атаки на одном обычно эффективны на другом! Когда они находят ответы, их практически невозможно отличить.

Эксперименты также показали, что математические функции активации по сути синонимичны упрощенным приближениям: сигмоидные и tanh-активации были заменены быстрым, грязным ReLU, а 8-битные значения достаточно точны для переводчиков Google.

Хорошо выглядит на бумаге:

Сложная теория придала этой области налет признания в академических кругах. Однако результаты показывают, что более простые методы применимы на рынке. Я предполагаю, что зацикленность исследователей на доказуемой минимизации является ложным ограничением для архитектур нейронных сетей, потому что мы недостаточно хорошо их понимаем, чтобы знать, что ТОЛЬКО доказуемые методы будут работать.

Исследователи сейчас прибегают к экспериментам и пытаются оправдать успех того или иного метода ad hoc. Если их эксперименты показывают, что один метод превосходит другой, они ищут теоретическое обоснование; в настоящее время никакое уравнение не предсказывает успех. (В более зрелых науках это называется рационализация…)

После расширения пула методов до недифференциальных архитектур мы, вероятно, обнаружим, что другие качества нейронных сетей на самом деле являются предикторами успеха. В следующем посте я расскажу об одном примере.

Основные индикаторы успешной сетевой архитектуры, вероятно, будут вращаться вокруг динамики этих архитектур. Под этим я подразумеваю, что архитектуры будут отличаться своим способом перемещения в пространстве параметров. Методы импульсивности и регуляризации - первые шаги к этому пониманию. Эти методы в настоящее время оправдываются смутной интуицией и просьбой «посмотреть, как это удалось». Мы не понимаем объема возможных техник: выпадение, неплотность и все остальное подобно верблюжьим героям на равнинах и носорогам Дюрера - беспорядочным размышлениям о том, что происходит, почему и как. Пропускные соединения работают, но причины, по которым они работают, почему имеют астрологический характер. Подобно тому, как полет зависит от крыла, в то время как первые мастера были одержимы достаточным колебанием, я подозреваю, что последующие поколения будут обладать описательной структурой для сетевых качеств, которые мы не можем определить в присутствует.

Давайте отбросим нашу одержимость доказуемо дифференциальными системами хотя бы на мгновение и обратим внимание на другие аспекты сетевой архитектуры и поведения. Мы можем обнаружить, что особенности, которые определяют успех, не связаны с командами наших уравнений!

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning