Я рассматриваю машинное обучение как дисциплину с такими же масштабами и мощью по сравнению с ее предшественниками в области анализа, как и вычисления. Будущие историки могут рассматривать нашу эпоху как пограничный период, как, например, противоречие между Лейбницем и Ньютоном, когда различные формальные утверждения методов машинного обучения кажутся различаются, а обозначения противоречат друг другу. Определенная степень эквивалентности методов была выявлена, однако область в целом фрагментирована множеством вариантов. Они будут преобразованы в элегантные и выразительные формы только после гораздо большего количества экспериментов и основных теоретических выводов.
Слепые:
Теория была первой для нейронных сетей. Математики на протяжении десятилетий делали фундаментальные выводы, демонстрирующие, что обучение приближает сеть к минимуму функции потерь. Исследователи чувствуют необходимость уговорить уравнения в доказательство этой способности. В результате они искали архитектуры, которые допускали такое доказательство, за исключением архитектур, которые было трудно доказать. Их функции активации, выбранные среди тех, которые обеспечивают нелинейность, были выбраны из-за их математической строгости: сигмоидальные кривые и гиперболические тангенсы позволили удобное математическое выражение градиента. Исследователи опасаются и избегают сетей с внешней памятью, например, которая не строго различается…
Тем не менее, эксперименты показали, что многие варианты фактически являются синонимами, генерируя результаты, которые имеют небольшую разницу в точности или скорости обучения, не различаются по сути. Обучите их достаточно долго, и эти различные сети также достигнут схожих границ принятия решений. SVM и CNN устанавливают границы принятия решений, которые достаточно близки, так что состязательные атаки на одном обычно эффективны на другом! Когда они находят ответы, их практически невозможно отличить.
Эксперименты также показали, что математические функции активации по сути синонимичны упрощенным приближениям: сигмоидные и tanh-активации были заменены быстрым, грязным ReLU, а 8-битные значения достаточно точны для переводчиков Google.
Хорошо выглядит на бумаге:
Сложная теория придала этой области налет признания в академических кругах. Однако результаты показывают, что более простые методы применимы на рынке. Я предполагаю, что зацикленность исследователей на доказуемой минимизации является ложным ограничением для архитектур нейронных сетей, потому что мы недостаточно хорошо их понимаем, чтобы знать, что ТОЛЬКО доказуемые методы будут работать.
Исследователи сейчас прибегают к экспериментам и пытаются оправдать успех того или иного метода ad hoc. Если их эксперименты показывают, что один метод превосходит другой, они ищут теоретическое обоснование; в настоящее время никакое уравнение не предсказывает успех. (В более зрелых науках это называется рационализация…)
После расширения пула методов до недифференциальных архитектур мы, вероятно, обнаружим, что другие качества нейронных сетей на самом деле являются предикторами успеха. В следующем посте я расскажу об одном примере.
Основные индикаторы успешной сетевой архитектуры, вероятно, будут вращаться вокруг динамики этих архитектур. Под этим я подразумеваю, что архитектуры будут отличаться своим способом перемещения в пространстве параметров. Методы импульсивности и регуляризации - первые шаги к этому пониманию. Эти методы в настоящее время оправдываются смутной интуицией и просьбой «посмотреть, как это удалось». Мы не понимаем объема возможных техник: выпадение, неплотность и все остальное подобно верблюжьим героям на равнинах и носорогам Дюрера - беспорядочным размышлениям о том, что происходит, почему и как. Пропускные соединения работают, но причины, по которым они работают, почему имеют астрологический характер. Подобно тому, как полет зависит от крыла, в то время как первые мастера были одержимы достаточным колебанием, я подозреваю, что последующие поколения будут обладать описательной структурой для сетевых качеств, которые мы не можем определить в присутствует.
Давайте отбросим нашу одержимость доказуемо дифференциальными системами хотя бы на мгновение и обратим внимание на другие аспекты сетевой архитектуры и поведения. Мы можем обнаружить, что особенности, которые определяют успех, не связаны с командами наших уравнений!