Человеческие изобретения черпают вдохновение в природе. Точно так же глубокое обучение было попыткой смоделировать человеческий мозг, одну из самых сложных структур во Вселенной. Попытка не заключалась в том, чтобы имитировать каждую деталь мозга. Вместо этого искусственные нейронные сети были вдохновлены биологическими нейронными сетями, что в конечном итоге привело к глубокому обучению.
Так что же такое глубокое обучение?
Google определяет глубокое обучение как «тип машинного обучения, основанный на искусственных нейронных сетях, в котором используется несколько уровней обработки для извлечения из данных функций все более высокого уровня».
Alexa, поаплодируйте Google за определение!
Точно! Поскольку данные начали трансформироваться в несколько измерений, традиционные подходы к машинному обучению не могли дать удовлетворительных результатов. Потребовалось вмешательство человека, чтобы извлечь функции более высокого уровня для использования в обычных алгоритмах машинного обучения. Сфабрикованные функции рискуют внести вклад в алгоритмы, что уже является актуальной проблемой в настоящее время в ИИ. Например, можно создать черно-белое представление изображений, а затем передать его SVM для классификации или инвертировать положительное изображение в отрицательное. Эти функции могут работать для некоторых и могут не работать для других. Повсеместное распространение данных требовало от компаний из разных секторов найма специализированных специалистов для создания значимых функций для алгоритмов. Инженеры и исследователи машинного обучения выполняли эти задачи за счет времени и вычислительных ресурсов. Но примерно в середине 2010 года мир, наконец, взглянул на глубокое обучение в таком измерении, которого раньше не было. Спасибо всем академикам и исследователям с 1940-х по 2000-е годы за их огромные усилия по раскрытию людям истинного потенциала глубокого обучения. С чего все началось? Что сделали эти исследователи? Как глубокое обучение пережило зиму ИИ? В каком направлении движется глубокое обучение? На WH-вопросы хорошо отвечает История. И это то, на что мы будем смотреть.
В 1943 году Уоррен МакКаллох и Уолтер Питтс объяснили процесс возбуждения нейронов внутри мозга с помощью пороговой логики. Нейрон MP вычисляет сумму по всем двоичным входам и запускает двоичные выходы, если сумма превышает регулируемый порог. В народе его называют нейроном Маккалло-Питтса.
Фрэнк Розенблатт создал модель перцептрона в 1958 году. Модель персептрона принимает взвешенную сумму действительных входных данных и производит двоичный вывод, если взвешенная сумма равна или превышает пороговое значение. Два ключевых различия между нейроном MP и моделью персептрона заключаются в том, что в последней модели использовались действительные входные данные и веса.
Пока отлично! Не так ли? Но первая зима ИИ наступила после модели персептрона Розенблатта. Зимы ИИ — это периоды, когда в этой области практически не наблюдается прогресса, не хватает инвестиций для научных исследований и т. д. Глубокое обучение полностью умерло в конце 1960-х годов, потому что исследователи не были уверены в бинарных нейронах. У бинарных нейронов был один недостаток, препятствовавший прогрессу в глубоком обучении. Бинарные нейроны не были дифференцируемыми, что делало невозможным их обучение.
В 1970 Сеппо Линнайнмаа согрел зиму ИИ и проложил путь к прекрасной весне, изобретя обратное распространение ошибки. Разработка основ модели непрерывного обратного распространения началась в 1960-х годах Генри Дж. Келли и Стюартом Дрейфусом, но именно открытие Линнайнмаа мы используем в современном обратном распространении (обратном режиме автоматического дифференцирования).
В 1979 Кунихико Фукусима разработал неокогнитрон, иерархическую многоуровневую искусственную нейронную сеть для задач распознавания японских рукописных символов и образов. Неокогнитрон использовал контролируемые и неконтролируемые алгоритмы для обучения параметров модели. Это была одна из первых попыток создания современных глубоких сверточных нейронных сетей.
Румелхарт, Уильямс и Хинтон в 1985 продемонстрировали использование обратного распространения ошибки в обучении нейронных сетей. Эта разработка заполнила все пробелы от модели персептрона Розенблатта до автоматической дифференциации обратного режима Линнайнмаа. Идея обучения нейронных сетей с обратным распространением вызвала интерес в исследовательском сообществе к дальнейшим исследованиям в этой области.
В 1989 году Янн ЛеКанн разработал сверточные нейронные сети, вдохновившись работой неокогнитрона и Хинтона и др. 1985 года. Подход ЛеКанна сейчас активно используется в компьютерном зрении.
Разве это не должно было стать вечной весной ИИ? Нет, в 1990-х началась еще одна зима ИИ. На этот раз сообщество отнеслось скептически из-за затрат на инфраструктуру, связанных с обучением глубоких нейронных сетей. Кроме того, проблема исчезающих и взрывающихся градиентов отпугивала исследователей от идеи использования нейронных сетей в ИИ.
Немногие исследователи и развитие инфраструктуры возродили глубокое обучение после второй зимы ИИ. Хотя RNN появились в 1986 году, только в 1997 Зепп Хохрайтер и Юрген Шмидхубер изобрели долговременную кратковременную память (LSTM).
В 1999 компания Nvidia разработала первый в мире графический процессор. Исследователи начали реализовывать модели глубокого обучения на графических процессорах с начала 2006 года. В начале 2010 года для распознавания речи использовалось глубокое обучение, а в 2013 году сообщество специалистов по компьютерному зрению начало использовать нейронные сети.
Благодаря этим важным теоретическим и инфраструктурным разработкам сообщество машинного обучения больше не могло игнорировать глубокое обучение. В последнее десятилетие инвестиции и исследовательские возможности в этой области быстро росли, что позволило достичь человеческого уровня интеллекта в некоторых задачах. Таким образом, «пружина ИИ» установилась навсегда.
Чтобы быть в курсе последних событий в области глубокого обучения, подписывайтесь на https://deep-learning-links.carrd.co/.
Это моя первая статья на Medium. Я хотел бы услышать ваши комментарии, которые помогут мне улучшить мой стиль представления контента. Ваше здоровье!