Мысли и теория
Чему может нас научить Эйнштейн о машинном обучении
Использование симметрии в машинном обучении
Во многих отношениях физика и машинное обучение имеют общую цель: формулировать модели наблюдаемых явлений. Для достижения этой цели физики давно осознали важность симметрии. В этом посте мы рассмотрим, как идеи симметрии из физики могут быть использованы в качестве руководящих принципов в машинном обучении.
Соавтором этого сообщения в блоге является Оливер Кобб из Кагенова.
За последнее десятилетие в машинном обучении был достигнут быстрый прогресс, особенно в решении проблем, связанных со сложными многомерными данными, такими как компьютерное зрение или обработка естественного языка. Однако распространенной критикой машинного интеллекта по сравнению с его биологическим аналогом является неэффективность, с которой он учится на примерах. В то время как маленький ребенок может научиться распознавать новое животное всего по горстке примеров, современная система машинного обучения может потребовать сотни или даже тысячи примеров для достижения того же результата.
Симметрия в физике
Как люди, мы формируем модели окружающего нас мира на основе надежных физических законов, многие из которых мы узнаем подсознательно. Физики исследуют, как можно формализовать и открыть такие законы и модели. Их цель - сформулировать модели основных процессов, которые точно описывают и предсказывают наблюдаемые явления.
Физические системы можно моделировать на различных уровнях абстракции. Модели, используемые для объяснения астрономических явлений, обычно используют законы физики, отличные от тех, которые используются для объяснения субатомных частиц. Однако существует принцип, который пронизывает физические законы на всех уровнях абстракции: известные симметрии природного мира должны соблюдаться.
Понятие симметрии относительно физических законов немного отличается от его более привычного использования при описании симметрии объектов. Считается, что объект обладает симметрией, если он остается неизменным (т.е. инвариантным) при некотором преобразовании. Например, тот факт, что сфера остается сферой при любом произвольном вращении, означает, что она проявляет симметрию вращения.
С другой стороны, физический закон, регулирующий поведение системы, считается симметричным некоторому преобразованию, если закон одинаково применяется к системе до и после того, как она претерпела преобразование.
Простым примером является трансляционная симметрия, которой удовлетворяют законы, которые одинаково применяются к системе независимо от ее местоположения. Например, мяч, брошенный в одной комнате дома, ведет себя так же, как мяч, брошенный в другой комнате (без учета любых внешних факторов, таких как легкий ветерок).
Второй пример - вращательная симметрия, которой удовлетворяют законы, которые одинаково применяются к системе независимо от направления, в котором она смотрит. Третий пример - это трансляционная симметрия во времени, которой удовлетворяют законы, не меняющиеся со временем.
Физикам давно известны свойства временной и пространственной симметрии физических законов. Однако в начале 20 века значение симметрии в физике претерпело изменение парадигмы.
Вместо того, чтобы начинать с физических законов и выводить соответствующие свойства симметрии, в своей знаменитой статье 1905 года по специальной теории относительности Эйнштейн вместо этого использовал принципы симметрии в качестве отправной точки для вывода новых физических законов.
Десять лет спустя немецкий математик Эмми Нётер, которая внесла новаторский вклад как в абстрактную алгебру, так и в теоретическую физику в то время, когда женщины были в значительной степени исключены из академических должностей, еще больше повысила роль симметрии в физике. Она доказала, что для любой непрерывной симметрии физических законов существует соответствующий закон сохранения. Например, закон сохранения количества движения может быть выведен из трансляционной симметрии физических законов. Точно так же сохранение углового момента следует из симметрии вращения и сохранения энергии из симметрии поступательного движения.
Фундаментальные законы физики, такие как сохранение энергии и импульса, на самом деле вытекают из симметрии Вселенной.
Использование симметрии в качестве руководящего принципа для открытия соответствующих законов и моделей для описания наблюдаемых явлений имеет большое значение не только в физике, но также может быть использовано в машинном обучении.
Симметрия в машинном обучении
Практики машинного обучения хорошо осведомлены о важности наложения ограничений на модели для управления компромиссом смещения и дисперсии. При поиске модели взаимосвязи между объясняющими и целевыми переменными в машинном обучении мы сначала указываем класс моделей, который, по нашему предположению, содержит адекватно описательную модель. В рамках этого класса мы ищем модель, которая наилучшим образом описывает наблюдаемые явления, т.е. максимизирует эмпирическую меру соответствия.
Важно указать достаточно широкий класс, чтобы он содержал модель, точно описывающую взаимосвязь, и в то же время достаточно ограниченный, чтобы не уступать по производительности моделям, которые чрезмерно подходят к данным. Обычно этого трудно достичь, поскольку машинное обучение наиболее полезно, когда взаимосвязь между объясняющими и целевыми переменными не совсем понятна (в конце концов, это то, что мы надеемся изучить), и поэтому неочевидно, как установить эти границы. Например, мы знаем, что взаимосвязь между изображением, то есть массивом яркости пикселей, и категорией, соответствующей семантическому значению изображения, очень сложна. Как мы можем определить модель, которая допускает такую сложность, но при этом относительно ограничена?
Один особенно эффективный способ ввести индуктивные искажения в модели машинного обучения для решения этой проблемы - что на данном этапе не должно вызывать удивления - - это использовать принципы симметрии!
Имея широкий класс моделей, мы можем сразу игнорировать подавляющее большинство, которые не придерживаются понятий симметрии, которые, как известно, проявляются в данной проблеме. В том же духе, что и Эйнштейн, открывший специальную теорию относительности, мы начинаем с того, что обращаем внимание на принципы симметрии, которые должны быть соблюдены, и работаем в обратном направлении, чтобы найти модель, которая наилучшим образом описывает наблюдаемые данные.
Симметрия в сверточных нейронных сетях (CNN)
Канонический пример того, как этот принцип был использован в машинном обучении, - это разработка сверточных нейронных сетей (CNN) для задач компьютерного зрения. Как и при любом использовании нейронных сетей, цель состоит в том, чтобы иерархически изучить высокоуровневые функции из низкоуровневых. Самая важная симметрия в компьютерном зрении - это трансляционная симметрия: кошачий глаз - это кошачий глаз, независимо от того, где он появляется на изображении.
CNN кодируют трансляционную симметрию через дизайн своей архитектуры. Каждый нейрон соответствует пространственной области входа и связан только с соответствующей окрестностью нейронов в предыдущем слое. Важно отметить, что каждый нейрон точно так же связан со своим соответствующим соседством в предыдущем слое. Таким образом, независимо от того, где находится объект (например, кошачий глаз) на изображении, он одинаково стимулирует нейроны в соответствующем месте. Это свойство сверточного оператора называется трансляционной эквивариантностью и показано на диаграмме выше - применение оператора к функции с последующим переводом эквивалентно трансляции с последующим применением оператора.
Этим тщательным архитектурным проектированием мы ограничиваем пространство моделей, по которым мы ищем, только теми, которые придерживаются этого здравого смысла свойства трансляционной эквивалентности. С эвристической точки зрения мы можем подумать о том, чтобы протянуть руку помощи нашему алгоритму обучения, убедившись, что шаблон нужно выучить только один раз. Вместо того, чтобы изучать шаблон во всех возможных местах, кодируя трансляционную эквивалентность в самой модели, мы гарантируем, что затем шаблон может быть распознан во всех местах.
Интеграция симметрии в машинное обучение для плоских изображений и не только
Интеграция трансляционной симметрии в модели машинного обучения - один из ключевых факторов, способствовавших революционным достижениям в области компьютерного зрения за последнее десятилетие (в сочетании с увеличением объема данных и вычислительной мощности).
Безусловно, помогло то, что 2D-изображения имели простую плоскую форму, для которой трансляционная симметрия может быть закодирована интуитивно понятным и вычислительно эффективным способом. Для задач, связанных с данными с более сложной (неплоской) геометрией, соблюдение требуемых принципов симметрии может быть более трудным. Работа со сложной геометрией требует более продвинутого математического аппарата, порождающего область геометрического глубокого обучения. Сообщество геометрического глубокого обучения добилось значительного прогресса в достижении этой цели, которую мы рассмотрим далее в следующих публикациях.
использованная литература
[1] Брэдинг и Кастеллани, Симметрии в физике: философские размышления (2018), arXiv / 0301097
[2] Хиггинс, Амос, Пфау, Раканьер, Матти, Резенде, Лерхнер, К определению распутанных представлений ( 2018), arXiv: 1812.02230
[3] Кунстаттер, Симметрия физических законов ( 1999), https://theory.uwinnipeg.ca/users/gabor/symmetry/slide15.html