Прорывы и уроки NeurIPS 2020 могут продвинуть область искусственного интеллекта к более выгодному будущему.
2020 год был знаменательным годом для науки. Помимо быстро разработанных вакцин, мы увидели, как вычислительные методы DeepMind решают трудноразрешимую проблему предсказания структуры белка, мы стали свидетелями рассвета эпохи коммерческих космических полетов, и мы добились прогресса в продлении жизни и улучшении познания. .
В то же время у нас был один из худших лет в памяти живущих с точки зрения жизней и средств к существованию, мы пережили мучительную расплату с расовым неравенством и мы видели регионы, опустошенные в результате чрезвычайных стихийных бедствий.
Мы верим, что за всеми этими событиями грядущее десятилетие будет определяться духом технооптимизма. В области искусственного интеллекта ведется настоящая работа, которая решит серьезные проблемы, даст новые научные знания и приведет к большему процветанию человечества. Эта работа заслуживает внимания.
Переход в виртуальный мир изменил NeurIPS 2020 в более инклюзивный, насыщенный контентом формат. Это позволило исследователям всего мира поделиться беспрецедентным разнообразием открытий и точек зрения на ИИ с рекордным количеством участников. Не выходя из спальни или домашнего офиса, участники были подключены к шести дням приглашенных лекций, семинаров, стендовых сессий, устных презентаций, обучающих программ и даже виртуальных часов общения с вином и сыром с собой.
Вот краткое изложение наших любимых достижений. Во второй части мы сосредоточимся на достижениях в области компьютерного зрения. Это резюме ни в коем случае не является исчерпывающим. С полным расписанием конференции можно ознакомиться на сайте NeurIPS.
Практическое применение
Взаимодействие между теоретическими и практическими идеями для решения проблемы сформировало почти все современные инженерные дисциплины и может стать планом будущего ИИ. Действительно, многие теоретические вопросы возникают только тогда, когда технология оказывает влияние через системную интеграцию с рабочими процессами, процессами и принятием решений. Или, говоря словами Криса Бишопа с конференции NeurIPS 2020, приложения из реального мира вызывают вопросы фундаментальных исследований.
Соединяя мир с помощью стратосферных шаров в Loon
В статье Автономная навигация стратосферных аэростатов с использованием обучения с подкреплением Марк Беллемар демонстрирует одно из самых интересных и перспективных реальных приложений RL на сегодняшний день: обучение метеозонду с помощью Loon от Alphabet для навигации по стратосфера.
Project Loon предназначен для обеспечения доступа в Интернет в удаленные места с помощью метеозондных зондов. Это может изменить то, как более миллиарда человек подключаются к миру, разжигая цифровые революции на континентах, таких как Африка, и предоставляя сельским общинам средства жизнеобеспечения в виде телездравоохранения, доступа к образованию, удаленной работы и многого другого. Даже в NeurIPS возникли связанные проблемы, касающиеся доступности в областях с низкой пропускной способностью подключения к Интернету и доступности приложений, которые не разрешены в определенных географических регионах.
Для выполнения этой миссии воздушные шары должны оставаться в воздухе в стратосфере в пределах 50 метров от станции, разумно реагируя на различные вызовы. Подъем или спуск на определенную высоту позволяет воздушному шару управлять своим направлением, поскольку направление реактивного потока меняется на разных высотах. Однако погодные условия изменчивы и сложны, имеется мало информации о направлении ветра в определенный момент времени (а прогнозы ветра могут отличаться от 90–180 градусов), а недостаточный заряд батареи можно использовать только ночью.
Используя RL, команда успешно управляла воздушным шаром в стратосфере в течение 312 дней. Их подход заключался в подаче на контроллер характеристик ветра над и под воздушным шаром, а также неопределенности измерений, возникающей из-за смешивания прогнозов с измерениями. Награда максимальна, когда воздушный шар находится в пределах 50 метров от станции, с экспоненциальным падением на улице, а также с учетом заряда батареи.
Для процессов RL обычно требуется программный симулятор, в котором агенты обучаются перед переносом в реальный мир. Для создания своего симулятора Loon моделирует сложные наборы данных, относящиеся к ветру и атмосферным движениям. Команда использует ERA5, набор данных о ветрах с низким разрешением за последние 50 лет, с повышенной дискретизацией с процедурным шумом. Эпизод определяется начальными условиями, местоположением станции и случайным начальным числом. Используется QR-DQN (распределенный RL) с распределенным обучением между 100 участниками, четырьмя буферами воспроизведения и одним графическим процессором, что в сумме составляет 1,1 миллиарда шагов обучения за 30 дней обучения.
Команда использует полностью подключенную сетевую архитектуру с семью уровнями, 600 нейронов в каждом и активацией ReLU. Они используют «целенаправленное исследование» (в отличие от случайного исследования), выводя воздушный шар на заданную высоту и удерживая его на ней некоторое время с целью оставаться относительно близко к смоделированной назначенной наземной станции.
В результате агент RL превосходит обычный контроллер в реальном мире, потребляя при этом меньше энергии. Он достигает паритета с современным производственным контроллером всего за шесть дней. Он учится оставаться на периферии 50-метрового диапазона, в отличие от обычного контроллера, который пытается оставаться в центре. Когда он выходит за пределы диапазона, контроллер RL учится возвращаться намного быстрее, чем обычный контроллер. Интересно, что воздушный шар также научился использовать высоту в качестве запаса потенциальной энергии.
Это содержательный пример использования RL в важном реальном приложении. Это порождает теоретические вопросы, связанные, например, с парадоксом симулятора, который возник на других сессиях NeurIPS, таких как Мастерская Netflix и Робокубок UT Остина. Мы заинтригованы многими их вариантами, включая использование QR-DQN, режим тренировок и многое другое.
Развлекайте мир с ML в Netflix
В Expo Workshop: Машинное обучение в Netflix мы увидели, как Netflix использует машинное обучение, чтобы развлечь мир, продвигая границы прикладных исследований ИИ в постоянно меняющейся отрасли и определяя ее современную эпоху. Netflix представила свое промышленное использование машинного обучения на выставке вместе с исследователями из Google, Apple, Facebook, IBM и других компаний.
В Netflix все является проблемой рекомендаций: упорядочение видео, тем и поисковых запросов, изображения, используемые для представления шоу, отправленные сообщения (и время их отправки), и даже аспекты пользовательского интерфейса приложения Netflix адаптированы к Пользователь.
Обеспечение такого уровня персонализации более 158 миллионам подписчиков по всему миру представляет собой сложную задачу. Например, контент, который просматривает пользователь, зависит от рекомендаций системы, поэтому как мы можем определить, обнаружила ли система соответствующий контент, а не просто изменила то, что смотрел пользователь? Эта проблема особенно тонкая; небольшая предвзятость в рекомендациях может привести к большим ошибкам из-за петель обратной связи. На практике Netflix обнаружил, что до тех пор, пока существует открытый цикл, который вводит внешние данные, данные могут быть устранены, и система не сойдет с рельсов. В системе замкнутого цикла требуется какое-то исследование, чтобы поддерживать баланс.
Другие проблемы в Netflix варьируются от адаптации рекомендаций по мере изменения предпочтений пользователя, оценки не только точности рекомендаций, но и разнообразия, новизны, свежести и справедливости, работы с широкими пространствами действий, уменьшения количества «нарушителей доверия» (рекомендации пока не соответствуют действительности). отметьте, что они заставляют пользователя игнорировать будущие предложения), и обращаясь к «парадоксу симулятора»: нам нужен хороший симулятор среды для обучения агента RL, но мы не знаем динамику среды в контексте агента RL, пока мы его не развернем. Спикеры Netflix обсудили ряд подходов, используемых для решения этих проблем, от нового использования многоруких бандитов «на основе слотов» до линейных автоэнкодеров, до использования машинного обучения в системах и компиляции для повышения производительности. Netflix также намекнул на будущую работу по созданию контента с помощью машинного обучения. Например, Netflix может идентифицировать сегмент аудитории, автоматически создавать схему сценария для этого сегмента, находить сюжетные линии, которые находят отклик, и масштабировать их до полноценного производства.
Прислушиваясь к этим решениям и творческим направлениям будущего, удивительно, насколько далеко эта область продвинулась со времени вручения Netflix Prize всего 11 лет назад.
Машинное обучение как инженерная дисциплина
Итеративное развитие теории с практическими действиями для решения реальных проблем, будь то сельский Интернет, развлечения или десятки других проблемных областей, отмеченных на конференции, станет критическим шагом на пути к способности дисциплины ИИ соответствовать важнейшим инженерным гарантиям. А именно, это поможет установить способность превращать основные выводимые идеи ИИ в инженерные системы, которые работают так, как заявлено в реальном мире - в соответствии с ожидаемыми требованиями и предположениями, самостоятельно или в сочетании с людьми, принимающими решения, и при этом демонстрируя надежность и эффективность. , а также сведение к минимуму непреднамеренных действий, побочных эффектов и последствий.
В этом ключе Чарльз Исбелл своевременно призвал к действию во имя будущего отрасли. Из краткого содержания статьи Вы не можете избежать гиперпараметров и скрытых переменных: машинное обучение как предприятие по разработке программного обеспечения, в успешных технологических областях наступает момент, когда они становятся повсеместными, важными и заметными. Они развернуты в мире, и неизбежно что-то пойдет не так. Плохо спроектированный интерфейс приводит к авиакатастрофе. Контроллер багги доставляет смертельную дозу радиации больному раком. Затем поле должно выбрать зрелость и взять на себя ответственность за избежание вреда, связанного с тем, что оно производит. Машинное обучение подошло к этому моменту .
Исбелл утверждает, что предвзятость - основная проблема машинного обучения. Он просматривает несколько недавних примеров, чтобы продемонстрировать, что когда дело доходит до неявной предвзятости, весь процесс обучения имеет значение. Например, цветные камеры лучше работают с определенными оттенками кожи, микрофоны предпочитают мужские голоса и т. Д. Исбелл также утверждает, что это помогает привнести различные точки зрения в системы, развернутые в реальном мире.
Существует реальная, поддающаяся количественной оценке инженерная ценность приоритезации различных точек зрения в командах, разрабатывающих ИИ. Последствия невыполнения этого требования в таких областях, как справедливость, прозрачность и этика, очевидны. Исбелл утверждает, что это также помогает сосредоточиться на объяснимых моделях и расширить число людей с вычислительным мышлением. Например, можем ли мы разработать более доступные языки программирования, чтобы выразить предвзятость и ошибки машин?
Учитывая актуальность ИИ для повседневной жизни, Исбелл справедливо отмечает, что, если исследовательское сообщество не осознает необходимость строгости и не сформирует настоящую инженерную дисциплину с инклюзивным подходом к проектированию систем с самого начала, регулирующие органы будут (и должны ) действовать. Исбелл взял интервью у четырнадцати участников для этого творческого и острого выступления и намеревается выпустить видео с ними в течение следующих нескольких месяцев.
Согласно общепринятому мнению, для достижения таких полезных свойств, как надежность, необходимо жертвовать производительностью модели. В статье Лучше ли переносятся состязательно устойчивые модели ImageNet? Салман и др. исследовать гипотезу о том, что надежность противоборства на самом деле приводит к улучшенному представлению функций. Они демонстрируют, что устойчивые к противодействию модели часто работают лучше, чем их аналоги со стандартным обучением, когда используются для трансферного обучения.
Авторы сосредоточены на важной задаче компьютерного зрения - обучении моделей, устойчивых к атакам противника. Это атаки, при которых искажения изображения, незаметные для людей, приводят к неожиданным результатам модели. Их эксперименты, сфокусированные на ImageNet, не только демонстрируют повышенную устойчивость к возмущениям изображения, но также указывают на улучшение производительности в нескольких последующих задачах, когда модели используются в качестве экстракторов функций для обучения передачи. Более того, улучшения наблюдались как в настройке «фиксированной функции», где слой классификации обучается поверх функций, извлеченных из предварительно обученной сети, так и в настройке «полная сеть», в которой предварительно обученная сеть полностью доработан.
Еще один важный аспект ИИ как инженерной дисциплины - это способность выполнять важнейшие инженерные гарантии в реальном мире. Одним из наиболее важных из них является достижение производительности вне выборки, которая находится на одном уровне с производительностью внутри выборки. В глубоком обучении широко используется регуляризация L 2, которая часто приводит к лучшему обобщению в практических условиях.
В статье Динамика обучения глубоких сетей с регуляризацией L 2 Левкович и Гур-Ари дают нам хорошие идеи, которые можно попробовать, чтобы добиться лучших результатов с помощью регуляризации. Они раскрывают простые взаимосвязи между производительностью модели, коэффициентом регуляризации, скоростью обучения и количеством шагов обучения. Эмпирические отношения сохраняются, когда сеть чрезмерно параметризована, и могут использоваться для прогнозирования оптимального параметра регуляризации данной модели.
В частности, они обнаружили, что количество шагов SGD, пока модель не достигнет максимальной производительности, пропорционально частному коэффициента «c», который зависит от данных, архитектуры и гиперпараметров, и коэффициента регуляризации. Если обучение фиксировано на нескольких шагах, производительность модели достигает пика при определенном значении коэффициента регуляризации. Если количество шагов обучения пропорционально обратной величине коэффициента регуляризации, производительность улучшается с уменьшением коэффициента регуляризации. Более того, производительность с небольшой регуляризацией L 2 часто лучше, чем без нее вообще.
Эти наблюдения приводят как минимум к двум практическим применениям: простому способу прогнозирования оптимального коэффициента регуляризации на основе дешевого измерения «c» и динамическому графику для коэффициента регуляризации, который начинается с высоких значений регуляризации для ускорения обучения и постепенно уменьшает регуляризацию для повышения производительности.
Черпая вдохновение из мозга
Основной принцип NeurIPS заключается в том, что область обработки нейронной информации выигрывает от комбинированного взгляда на биологические, физические, математические и вычислительные науки.
Несмотря на давнюю критику искусственного интеллекта, вдохновленного нейробиологией (и более поздних критических замечаний, таких как this от Майкла И. Джордана), исследования мозга имеют и будут продолжать использовать ИИ. С практической точки зрения чрезвычайно трудно представить, какой еще может быть разум. Поэтому неудивительно, что аналог человеческого интеллекта устремляется в вакуум. Иными словами, пространство поиска возможных решений [для интеллекта] обширно и, вероятно, очень мало заполнено ... поэтому это подчеркивает полезность тщательного изучения внутренней работы человеческого мозга - единственного существующего доказательства того, что такой интеллект является даже возможно .
Даже среди тех, кто согласен с тем, что мозг является ярким и полезным источником вдохновения для интеллекта в кремнии, в 2020 году появилось множество взглядов на правильную стратегию будущего прогресса. Например, Джудея Перл оспаривала душу ИИ как дисциплину, которая чрезмерно полагается на технологии подгонки данных и науку интерпретации данных, в то время как Гэри Маркус подчеркнул ограничения глубокого обучения, включая чрезмерные требования к данным, низкую способность к передача знаний в другие области, непрозрачность и отсутствие рассуждений и представления знаний.
Независимо от того, является ли глубокое обучение окончательным решением труднодостижимой проблемы создания ИИ человеческого уровня или просто «наукой о лазании по деревьям», исследователи, вдохновленные мозгом, в этом году добились похвального прогресса.
Повышение вероятности обратного распространения ошибки в нейронном отношении
В статье ПОХОДКА-опора: биологически правдоподобное правило обучения, основанное на обратном распространении ошибки Ахмад и др. адаптировать ключевой алгоритм с явной целью сделать его более вероятным с точки зрения нервной системы. С 1986 года метод обратного распространения ошибки оказался чрезвычайно успешным в обучении искусственных нейронных сетей. Однако маловероятно, что биологические нейронные сети обучаются именно таким образом; алгоритм по самой своей природе включает обновления нейронных связей с использованием нелокальной информации.
Чтобы понять, как более правдоподобный подход может работать без нелокальной информации, рассмотрим выходные данные слоя и цели. Мы можем вычислить небольшое постепенное (линейное) движение вывода к цели и переопределить сетевую цель как этот постепенно перемещаемый вывод. Затем мы можем послать переопределенную цель через инверсию производной функции локальной активации для слоя, вычислить линейную инверсию этой новой кондиционированной цели и использовать результат в качестве цели для предыдущего слоя. Это устраняет все нелокальные зависимости. Фактически, если веса сети ортогональны, это правило обучения эквивалентно обратному распространению! Более того, авторы считают, что на практике ортогональность не нужна. Слабого регуляризатора достаточно для достижения производительности, конкурентоспособной с обратным распространением. Тестируются различные значения глубины и ширины, и это правило обучения хорошо работает с ними.
Помимо понимания того, как улучшить обучение искусственных сетей, эта работа может иметь последствия для распределенных алгоритмов. Например, в распределенной RL, можем ли мы разработать сквозной дифференцируемый алгоритм RL, который масштабируется как распределенная система с помощью GAIT-prop?
Улучшение результатов контрастного обучения
В статье 1992 года Джефф Хинтон и Сюзанна Беккер подвергли еще одной критике обратное распространение в том, что касается эмуляции мозга, утверждая, что стандартная форма обратного распространения знаний в качестве модели перцептивного обучения неприемлема, поскольку требует, чтобы внешний учитель указал желаемое. выход сети . Чтобы решить эту проблему, они представили концепции, лежащие в основе того, что сейчас известно как контрастное обучение, показывая, как внешнего учителя можно заменить внутренними обучающими сигналами.
Обучение представлению состоит из поиска преобразований, которые проецируют набор данных в пространство, которое увеличивает его информационную ценность для данной задачи. Контрастное обучение, которое стало мощной техникой обучения репрезентации под самоконтролем, основано на поощрении представления похожих точек данных (положительные пары) как близких, а несходных (отрицательные) - на более ортогональные. NeurIPS продемонстрировал несколько подходов к улучшению результатов контрастного обучения.
При отсутствии меток для заданной выборки x положительные выборки генерируются путем ее возмущения, а отрицательные выборки равномерно выбираются из обучающих данных. Однако это означает, что нет гарантии, что отрицательный образец не будет похож на x. В статье Debiased Contrastive Learning Чуанг и др. называют эту проблему систематической ошибкой выборки, которая, как можно эмпирически показать, приводит к значительному снижению производительности. В своей работе авторы демонстрируют, что можно смягчить это падение производительности, изменив контрастные потери, чтобы создать то, что они называют искаженными контрастными потерями. Эта новая потеря корректирует систематическую ошибку выборки отрицательных примеров, предполагая доступ только к положительным примерам и немаркированным данным. Он превосходит современное контрастное обучение по тестам на зрение, язык и обучение с подкреплением.
Во время сравнительного обучения положительные пары создаются из возмущения одной точки данных. Это оставляет процесс обучения недоступным для положительных пар, которые содержат очень разные примеры одного и того же класса. В статье Обучение представлению без учителя с помощью распространения инвариантности Ван и др. предложить метод, называемый распространение инвариантности, который рекурсивно обнаруживает семантически согласованные положительные образцы, находящиеся в одних и тех же областях с высокой плотностью в пространстве представления. В этой работе рассматривается ограничение создания положительных пар исключительно за счет увеличения данных, фокусируясь на обучающих представлениях, которые инвариантны к вариациям на уровне категории, которые предоставляются разными экземплярами одной и той же категории. Эксперименты авторов демонстрируют конкурентоспособные результаты по последующему обнаружению объектов и современные результаты по классификации и передаче обучения на множестве наборов данных.
Ускорение трансферного обучения
Люди также преуспевают в передаче знаний, полученных в одном контексте, в новые, ранее невиданные области. Например, NeurIPS продемонстрировал, что человек, который может вести видеоконференцию или участвовать в постерной сессии, обычно способен действовать эффективно, когда сталкивается с незнакомой виртуальной конференц-системой (MiniConf, Zoom и Rocket.Chat работали блестяще!) или новый вариант той социальной ситуации. Как люди достигают такого рода трансферного обучения, неизвестно, но наблюдается прогресс в разработке архитектур ИИ, способных демонстрировать сильное обобщение или передачу.
Хорошо известно, что глубокие нейронные сети могут изучать как реальные, так и случайные метки. В статье Чему обучаются нейронные сети при обучении с использованием случайных меток? Maennel et al. показывают, что предварительное обучение на случайных метках может фактически ускорить последующее обучение на новых изображениях из того же распределения (с реальными или случайными метками).
Авторы показывают, что в первом слое сети собственные векторы ковариации данных являются собственными векторами ковариации весов, и они могут доказать это с помощью некоторых скромных предположений. Чтобы полностью определить ковариацию весов, нам также необходимо указать собственные значения. Оказывается, собственные значения ковариации данных соответствуют собственным значениям ковариации весов согласно гладкой передаточной функции. Авторы утверждают, что эта передаточная функция - это то, что слой узнает.
Экспериментально глубина помогает значительно ускорить переносное обучение. Согласование данных и ковариация веса объясняет наблюдаемое ускорение тренировки. Экспериментально показано, что это выравнивание выполняется на реальных этикетках для ResNet на CIFAR10. Тот же эффект происходит в более глубоких слоях, что мы можем показать, заморозив более ранние слои и рассматривая слой n как первый слой. Напротив, нейроны в последних слоях могут специализироваться на очень небольшом количестве случаев в обучающих данных, и это может фактически замедлить обучение на новых данных, особенно когда ширина последнего слоя мала.
Это важно, потому что предполагает, что для любого набора данных мы можем использовать случайные метки для обучения сети с высокими параметрами, а затем выгодно использовать обученные веса для более быстрого обучения на определенных метках. По сути, это дает нам еще один подход к обучению без учителя, который мы используем для улучшения обучения с учителем.
Заставить GAN работать с ограниченными данными
Кроме того, как подчеркивается в этой статье 2016 года, люди обладают впечатляющей способностью рассуждать о новых концепциях и опыте только на одном примере. На NeurIPS 2020 в нескольких докладах была предпринята попытка добиться прогресса в разработке систем машинного обучения с этой важной способностью.
В статье Обучение генеративных состязательных сетей с ограниченными данными Каррас и др. продемонстрировать метод обучения GAN с меньшими объемами данных, называемый стохастическое увеличение дискриминатора. GAN - это мощные модели, которые могут генерировать реалистичные синтетические данные и иметь несколько приложений. Одним из их недостатков является то, что для их обучения требуется большой объем данных. Если данные обучения ограничены, это может привести к переобучению дискриминатора, что приведет к расхождению в обучении.
Каррас и его коллеги решают эту проблему, предлагая механизм увеличения адаптивного дискриминатора, который стабилизирует обучение, когда доступны ограниченные данные. Традиционный подход к увеличению обучающих данных при работе с изображениями заключается в расширении набора данных такими операциями, как поворот, перевод, обрезка, масштабирование и другие. Эти сохраняющие семантику искажения приводят к желаемой устойчивости классификации. Однако применение подобного режима обучения к GAN вредно, потому что он научится генерировать расширенное распределение.
Недостатков увеличения данных для обучения GAN можно избежать, применив аугментацию ко всем изображениям, показываемым дискриминатору, оценив его только с использованием дополненных изображений и сделав это также при обучении генератора. Несмотря на простоту, этот подход к стохастическому расширению дискриминатора показал свою эффективность при использовании с расширениями без утечек, как описано авторами. Тем самым он устраняет ключевой недостаток сетей GAN.
Улучшение обучения с подкреплением
Хотя нейробиология, несомненно, сыграла важную роль в развитии глубокого обучения, она также стимулировала появление области обучения с подкреплением. Изначально методы RL были вдохновлены исследованиями обучения животных. Согласно Демису Хассабису и др., В частности, разработка методов временной разницы, критического компонента многих моделей RL, была неразрывно связана с исследованиями поведения животных в« экспериментах по кондиционированию ». RL также тесно связан с экспериментальной психологией, как указано в Проблема согласования.
Сегодня RL является важной второй опорой современного искусственного интеллекта. Однако, когда он применяется к реальным проблемам, он быстро сталкивается с множеством проблем, таких как парадокс симулятора.
В статье Возникающая сложность и перенос без выстрела через неконтролируемое проектирование среды Деннис и др. представить решение для обучения агента RL для среды, неизвестной во время обучения. Этот документ предлагает нам путь вперед для обучения в распределении сред, которое включает в себя среду реального мира, и делает это таким образом, чтобы агент RL постепенно изучал все более и более сложные среды.
У альтернативных методов есть недостатки. Например, мы могли бы использовать рандомизацию предметной области для обучения в распределении сред, однако случайная выборка, как правило, не отражает реальных сред, с которыми встречаются. Мы могли бы кодировать среды вручную, но это требует много времени и подвержено ошибкам. Мы могли бы создавать враждебные среды, используя самостоятельную игру, которая, как было показано, хорошо работает в некоторых контекстах, как было продемонстрировано AlphaZero и т. Д., Но во многих приложениях слишком легко создать невероятно сложные среды.
Многие исследователи, в том числе Питер Аббель в его ключевом докладе NeurIPS 2017, предположили, что мы могли бы устранить эти недостатки, обучая распределение сред, включающее реальный мир. Перефразируя, пока ваш дистрибутив достаточно широк, реальный мир - это просто еще одна симуляция. Эта работа показывает, что зачастую все не так просто. Случайные среды совсем не похожи на реальный мир. Чтобы убедиться в этом, рассмотрим лабиринт, созданный случайным образом, и лабиринт, созданный человеком.
Решение было найдено Деннисом и др. включает в себя трех агентов: создателя враждебной среды, главного героя (оригинальный агент RL) и антагониста. Противник вознаграждается за максимальную разницу в производительности между антагонистом и главным героем, что заставляет его создавать возможные, но сложные среды. Этот подход также естественным образом ведет к форме обучения по учебной программе, поскольку окружающая среда становится все труднее по мере того, как антагонист учится с ней справляться.
Но даже если мы найдем надежные решения парадокса симулятора и найдем способы применить RL к более реальным проблемам, мы все еще далеки от поведения по-настоящему интеллектуальных агентов. Мы, люди (и другие животные), не просто оптимизируем дисконтированную сумму вознаграждений в нашей среде; мы придумываем собственные цели, исследуем окружающую среду из чистого любопытства и даже выбираем для себя то, что считаем вознаграждением.
Тридцать лет назад Юрген Шмидхубер представил несколько ключевых концепций, которые сейчас широко используются в RL, включая раннюю форму искусственного любопытства. В статье Машины, которые изобретают свои собственные проблемы: к открытому обучению навыкам Пьер-Ив Аудейер стремится генерировать открытые, поистине творческие цели, выходящие за рамки ранее изученных целей. Его подход состоит в том, чтобы определить пространства целей вместе с функциями вознаграждения за те цели, которые обозначают внутреннюю мотивацию, избегая при этом отвлекающих факторов (то есть невыполнимых или трудноразрешимых целей).
Человеческие дети часто учатся через игру. Они исследуют свое окружение и находят внутреннее вознаграждение в выполнении определенных задач. Аудейер пытается воспроизвести это поведение в машине. Чтобы избежать отвлекающих факторов, одним из решений является использование бандита для выборки из встраиваемых целей, где каждая рука бандита представляет собой кластер в скрытом пространстве. Изучить функцию достижения цели можно, изучив расстояние от цели в пространстве действий. Однако есть много типов целей, которые нужно исследовать, и мы не можем полагаться на единственное представление целей. Чтобы решить эту проблему, можно использовать иерархию пространств представления целей и выборки из них. Но как нам достичь открытых, действительно творческих целей, выходящих за рамки ранее изученных целей?
Аудейер предлагает использовать генеративные модели, основанные на естественном языке, в качестве механизма для выражения действительно новых целей на основе известных концепций. Например, мы можем объединить понятия «кошка» и «автобус», чтобы представить совершенно новую вещь: «кат-автобус». Общая архитектура системы, которую он описывает, состоит из конкатенации вложений: (i) среда, состоящая из тела агента и окружающих объектов, и (ii) предложение, встроенное из модели генеративного языка. Конкатенация подается в механизм внимания для фильтрации предложений, не связанных с воспринимаемой средой, затем используется глубокий набор (нейронная сеть графа), чтобы предсказать, является ли предложение истинным в текущей ситуации.
Нам нравится, что в этой работе предлагается использовать естественный язык как способ исследования открытых комбинаций понятий. Это заставляет задуматься, развили ли мы естественный язык (частично) именно для этой цели. Подобное применение естественного языка также отлично подходит для больших языковых моделей, таких как OpenAI's GPT-3.
Последние мысли
В совокупности эти открытия создают много возможностей. NeurIPS 2020 положил начало тому, что, по нашему мнению, станет новой «бурной 20-ой» - эпохой, в которой наука имеет значение, наша культура ставит во главу угла прогресс, и мы принимаем вызов, поставленный Чарльзом Исбеллом. Вступая в это новое десятилетие, у нас появляется возможность улучшить дисциплину ИИ - именно в тот момент, когда эта область «стала широко распространенной, важной и заметной».
Следите за обновлениями части 2, в которой рассматриваются дополнительные основные моменты компьютерного зрения NeurIPS 2020.
Эрик Аллен - технический директор Acrisure Technology Group. До этого он был старшим вице-президентом Two Sigma, проводил исследования в области глубокого обучения в команде Core AI, а также был главным исследователем в Sun Labs. Он имеет докторскую степень в области компьютерных наук Университета Райса.
Брендан МакКорд - президент Acrisure Technology Group. Ранее он был основателем двух компаний, занимающихся ИИ, которые были приобретены в 2020 году за 400 миллионов долларов, руководил созданием организации прикладного ИИ для Министерства обороны и разработал первую стратегию ИИ Министерства обороны.
Рафаэль Тена - старший научный сотрудник по ИИ в Acrisure Technology Group. Ранее он помогал таким компаниям, как FIGS, ускорить рост с помощью машинного обучения, работая в Tulco Labs, и был старшим инженером-исследователем в Disney Research. Он имеет докторскую степень в области компьютерного зрения Университета Суррея.