Alphatensor: ИИ, переосмысливающий математику

Искусственный интеллект существует уже несколько десятилетий и прошел долгий путь развития. Одной из компаний, которая оказала большое влияние в этой области, является DeepMind Technologies. AlphaTensor, первая система искусственного интеллекта для разработки уникальных алгоритмов для выполнения фундаментальных операций, таких как умножение матриц, была недавно создана исследовательской группой Google DeepMind.

Математические задачи обычно решаются путем поиска более быстрого и эффективного алгоритма. Но уже более 50 лет математики не могут найти самый быстрый способ умножения двух матриц. Это стало серьезным препятствием для развития многих технологий, основанных на крупномасштабных вычислениях, таких как искусственный интеллект и криптография. Но теперь исследователи обнаружили, что технология ИИ может решить эту проблему, используя глубокое обучение для открытия нового алгоритма, который превосходит все ранее известные методы как по скорости, так и по эффективности.

Задача ученых-компьютерщиков состоит в том, чтобы понять интуицию, стоящую за инсайтом, а затем воспроизвести ее с помощью машинного обучения. Мы достигаем этого, создавая нейронную сеть кодировщика-декодера, основанную на внимании, которая учится переводить между различными представлениями проблемы. Каждое представление отражает определенный аспект основной проблемы, и у каждого есть свой набор преимуществ и недостатков. Например, тензорный формат полезен для больших наборов данных, поскольку он позволяет нейронным сетям работать с данными компактно и не требует выделения дополнительной памяти для хранения промежуточных результатов. Однако недостатком тензоров является то, что с ними может быть сложно работать, потому что количество возможных операций между тензорами растет экспоненциально с размером. Напротив, с разреженными матрицами легче работать, потому что они требуют гораздо меньше места для хранения, но требуют более сложного алгоритма. Обучая нашу сеть идентифицировать эти различные представления, мы раскрываем идеи, которые можно использовать для разработки новых и лучших алгоритмов. Этот подход применялся ко многим различным проблемам, включая распознавание речи, машинный перевод и анализ медицинских изображений. Но он никогда не использовался для решения такой сложной задачи, как умножение матриц.

Алгоритмы машинного обучения применяются для решения огромного количества задач, которые постепенно усложняются по мере увеличения объема используемых данных. Необходимо найти новые методы для ускорения и повышения эффективности вычислений в ситуациях, когда имеется большое количество входных и выходных данных и когда данные динамически изменяются во времени. Одной из таких задач является вычисление матричного произведения двух матриц A и B, где количество строк и столбцов в каждой матрице может варьироваться от одной к другой.

Эффективные алгоритмы умножения матриц необходимы для решения широкого круга задач обработки сигналов, теории управления и других областей, в том числе энергосистем, транспортных сетей и машинного обучения. К сожалению, самый быстрый из известных алгоритмов вычисления матричных произведений обычно включает треугольную или трапециевидную схему, которая может быть очень неэффективной, когда размер матриц становится большим или когда размер входных данных имеет тенденцию к быстрому росту со временем. В последние годы ряд исследователей предложили новые вычислительные методы, направленные на повышение эффективности и скорости умножения матриц. Эти новые алгоритмы основаны на факторизации произведения AB с точки зрения произведения меньших матриц, называемых факторами U и V, которые являются результатом внутреннего произведения между соответствующими элементами A и B.

К сожалению, эти алгоритмы также требуют тщательного анализа для определения подходящего разложения на факторы, которые не зависят от выбора конкретного численного метода для вычисления скалярного произведения. В случае матричного умножения с матрицами переменного размера это затрудняет поиск оптимальной факторизации, и получающийся алгоритм обычно менее эффективен, чем простая треугольная или трапециевидная схема. В этой диссертации описывается новый вычислительный метод, основанный на расширении работы Бендерса и Бостана, которые разработали основу для анализа алгоритмов, включающих алгебраические операции над конечномерными векторами в контексте численной линейной алгебры. Этот метод позволяет вычислить матричное произведение напрямую, используя только знание входных параметров A, B и размеров входной и выходной матриц, не требуя каких-либо знаний о базовых численных методах вычисления входных скалярных произведений. Полученный алгоритм обладает высокой степенью адаптивности и гибкости, поэтому он может хорошо работать с широким диапазоном различных распределений данных и компьютерных архитектур. Он особенно хорошо подходит для таких приложений, как распознавание изображений, где доступ к большому набору обучающих примеров часто ограничен.

Эти результаты могут быть использованы в качестве математического руководства для исследований теории сложности в будущем, целью которых является поиск кратчайших путей решения вычислительных задач. Поскольку AlphaTensor более тщательно исследует диапазон альтернативных алгоритмов, чем предыдущие методы, он расширяет наше понимание всего многообразия алгоритмов умножения матриц. Понимание этого пространства может помочь найти асимптотическую сложность матричного умножения, одну из самых фундаментальных нерешенных проблем в информатике.

Я аплодирую вам за то, что вы прочитали мой пост на Medium. Пожалуйста, не стесняйтесь оставлять свои мнения и опасения в разделе комментариев ниже.

Вы можете купить мне чашечку кофе, если вам понравилась моя работа и вы хотите выразить свою поддержку.

Пожалуйста, подпишитесь, чтобы получать обновления по электронной почте всякий раз, когда я публикую.

Если вы хотите узнать больше, пожалуйста, подпишитесь на меня.