Резюме статей, посвященных обучению на нескольких примерах

На прошлой неделе (06.05.19) началась Международная конференция по обучающимся представительствам (ICLR). Поэтому я подумал, что углублюсь в некоторые из статей ICLR, которые я нашел наиболее интересными. Большинство этих работ относятся к областям, представляющим для меня личный интерес (обучение без учителя, метаобучение, внимание, НЛП), но некоторые из них я выбрал просто из-за их высокого качества и влияния в соответствующих областях. В первой части будут рассмотрены достижения в области глубокого обучения на небольших наборах данных. Во второй части речь пойдет о статьях, посвященных открытиям в области НЛП и другим типам последовательных данных. Наконец, третья часть будет набором разных статей, которые мне показались интересными.

Перенос, мета и обучение без учителя

Проблема ограниченных данных обучения затрагивает широкий спектр отраслей, включая здравоохранение, сельское хозяйство, автомобилестроение, розничную торговлю, развлечения и т. Д. В других случаях данных много, но они не аннотированы. Эта проблема является частым препятствием для интеграции глубокого обучения из-за больших затрат времени и затрат на сбор и аннотирование данных.

Изучение правила обучения без учителя s

Эта статья основывается на идеях как метаобучения, так и обучения без учителя (здесь упоминается как Metz et al). В частности, в статье предлагается использовать метаобучение для изучения эффективных представлений для последующих задач без учителя. В статье основное внимание уделяется классификации с «полууправлением», но особенно интересно то, что, по крайней мере теоретически, правило обучения «можно оптимизировать для создания представлений для любой последующей задачи». Это полезно, потому что в большинстве работ по неконтролируемому обучению представлений авторы определяют конкретный алгоритм обучения или функцию потерь. В то время как здесь модели «изучают [s] алгоритм, который создает полезные представления, определенные мета-целью». Эти настраиваемые правила часто требуют значительного количества экспериментов и знаний предметной области и, следовательно, не могут быть легко адаптированы к новым доменам. Примером этого может быть использование автокодировщиков, которые изучают представления, пытаясь кодировать, а затем декодировать вывод, идентичный оригиналу. Для автокодировщиков часто требуется специальная функция потерь.

Чтобы точно понять, как это работает, вспомните, что обычно при метаобучении у нас есть как внутренний, так и внешний цикл. Во внутреннем цикле модель работает над определенной задачей, например, при классификации изображений это может быть идентификация собак и кошек. Обычно внутренний цикл выполняется на определенном количестве примеров, n (обычно n составляет от 1 до 10). Затем внешний цикл будет использовать некоторые параметры из внутреннего цикла (либо сами веса, совокупные потери или что-то еще) для выполнения мета-обновления. Специфика этого мета-обновления варьируется от модели к модели, но обычно они придерживаются этого подхода.

Имея это в виду, архитектура их модели, по сути, предназначена для метаобучения метода обновления внутренней модели после создания представлений. Это правило эффективно заменяет SGD при обновлении внутренней модели после создания представления. Кроме того, правило неконтролируемого обновления обновляется в конце цикла, в отличие от того, как сами веса будут обновляться с помощью MAML или весов модели внимания в случае SNAIL. Это означает, что это правило неконтролируемого обучения можно применять не только к аналогичным задачам, но и к совершенно новым задачам, новым базовым моделям и даже новым модальностям данных (например, от изображений к тексту).

Авторы сначала оценивают свои результаты, демонстрируя проблемы с предшествующими подходами. Например, VAE страдает несоответствием целевой функции (т. Е. Потерями), что со временем приводит к снижению производительности. В то время как прототипные сети передают функции, поэтому, если размерность функций между задачами различна, она начинает разрушаться. Напротив, поскольку подход Метца и др. Учитывает обновления, он может лучше обобщать, чем VAE, в нескольких задачах классификации выстрелов. Они также показывают при обучении мета-обновление, которое сеть может обобщить для улучшения классификации текста, даже если она была обучена только задачам классификации изображений (хотя они действительно наблюдали резкое снижение производительности, если мета-функция слишком долго обучалась на изображении. задача классификации, поскольку она превосходила задачу визуализации).

В целом это действительно хорошая статья и большой шаг вперед в неконтролируемых методах. Несмотря на то, что он не дает никаких современных результатов, он определенно может быть применен во многих областях, где данных недостаточно. Авторский код статьи доступен по следующей ссылке.

Обучение без учителя через мета-обучение

Интересно, что в этом году ICLR представляет две статьи, в которых предлагается объединить метаобучение и обучение без учителя, хотя и двумя совершенно разными способами. В этой статье вместо использования метаобучения для изучения правил неконтролируемого обучения используется неперсивное обучение для разделения наборов данных для метаобучения.

Эта статья - одна из моих любимых, поскольку она открывает двери для метаобучения без подробного описания задач. Отчасти проблема метаобучения заключается в том, что оно часто требует очень четко определенных наборов задач. Это ограничивает метаобучение областями, где у вас есть очень большие аннотированные наборы метаданных (которые уже разделены на отдельные поднаборы данных). Этот подход предлагает автоматическое разделение наборов данных на отдельные подмножества. Авторы обнаруживают, что даже при использовании простых алгоритмов неконтролируемой кластеризации, таких как K-средних, метаобучающийся все еще может учиться на этих задачах и лучше выполнять последующие задачи, помеченные человеком, чем методы, которые обучаются непосредственно на этих встраиваниях (как и случай обучения без учителя с последующей классификацией с учителем). Они используют два метода метаобучения: ProtoNets и MAML. В этой статье демонстрируется интересная форма полууправляемого обучения, когда мы проводим предварительное обучение без учителя, за которым следует обучение с учителем. В этом случае «контролируемый» компонент выполняет обучение за несколько шагов.

Авторы сравнивают свои методы с методами обучения без учителя на четырех наборах данных (MNIST, Omniglot, miniImageNet и CelebA). В конце концов они обнаружили, что их подход намного превосходит все другие методы обучения без учителя + с учителем, включая сопоставление кластеров, MLP, линейный классификатор и KNN. В целом, статья является хорошим шагом в направлении того, чтобы сделать метаобучение более доступным для различных типов задач, а не только для задач с четко определенным разделением задач.

Мета-обучение с помощью скрытой оптимизации встраивания (LEO)

Эта статья направлена ​​на объединение метаобучения на основе градиента с сетью скрытых представлений. LEO работает в два этапа: сначала он изучает низкоразмерное встраивание параметров модели, затем метаобучение выполняется на низкоразмерном встраиваемом пространстве модели. В частности, сначала модели дается задача T с входными данными, которые затем передаются кодировщику. Кодер создает скрытый код, который затем декодируется в набор параметров. Сеть отношений является частью этого кодировщика, который помогает коду стать зависимым от контекста. Затем эти параметры оптимизируются во внутреннем цикле, а кодер, декодер и сеть отношений оптимизируются во внешнем цикле. Авторы отмечают, что основной вклад их работы состоит в том, чтобы показать, что метаобучение в низкоразмерном пространстве вложения работает намного лучше, чем в высокомерном пространстве, таком как MAML. LEO демонстрирует сильные экспериментальные результаты как на наборах данных tieredImageNet, так и на наборах данных miniImageNet (включая впечатляющую точность 61% в тесте 1-shot 5-way и 77 для 5-кратного 5-ходового теста). Как и во многих других документах, он тестирует только данные изображения, поэтому неясно, насколько хорошо он будет обобщен на другие типы данных.

Передача обучения между процессами

Поскольку автор этой статьи уже опубликовал подробную статью о Medium о том, как это работает, я не буду вдаваться в подробности технических аспектов. В более широком контексте других статей по метаобучению в этой статье было несколько частей, которые стоит выделить. Сначала он оценивает как сценарии обучения с несколькими выстрелами, так и сценарии с большими данными. Это важно, поскольку часто алгоритмы метаобучения не смотрят на то, насколько хорошо работает метаоптимизация, когда существует большее количество примеров, но все еще слишком мало для обучения модели с нуля. Он также рассматривает несколько других областей, которые не исследованы. В частности, он обращается к часто малоизученной области дальнего переноса, которая дает возможность позитивной передачи знаний между существенно разными задачами.

Изучение скрытых надстроек в вариационных автоэнкодерах для глубокой многомерной кластеризации

В этой статье обсуждается использование нового типа вариационного автокодировщика (VAE), предназначенного для лучшей кластеризации данных большой размерности. Кластеризация предметов в отдельные группы - важный предварительный шаг в обучении без учителя. Авторы отмечают, что многие типы данных можно кластеризовать с помощью множества различных частей их атрибутов. Авторы отмечают, что «LTVAE создает несколько разделов данных, каждый из которых задается одной суперсатентной переменной».

LT-VAE не только изучает расположение каждого кластера, чтобы наилучшим образом представлять данные, но также их количество и иерархическую структуру лежащего в основе дерева. Это достигается с помощью трехэтапного алгоритма обучения. Шаг 1 - это традиционное обучение нейронных сетей кодировщика и декодера для улучшения подгонки данных. Шаг 2 - это EM-подобная оптимизация, чтобы лучше соответствовать параметрам латентного до изученного апостериорного. И шаг 3 адаптирует структуру скрытого до улучшения его оценки BIC [3], что уравновешивает хорошее соответствие скрытого апостериорного значения с количеством параметров (и, следовательно, сложностью) скрытого априорного значения.

Основное преимущество этого подхода заключается в том, что он улучшает интерпретируемость кластеризации, даже если общий результат с точки зрения логарифмической вероятности не так хорош. Кроме того, кластеризация на основе определенных аспектов делает его привлекательным для многих реальных приложений. Хотя эта статья отличается от многих других статей и не рассматривает явным образом обучение с использованием нескольких кадров, я думаю, что ее подход к кластеру может оказаться полезным в сочетании с методами нескольких кадров. Например, его можно было бы использовать в качестве раздела задач в «Неконтролируемом обучении через настройку метаобучения».

Глубокое онлайн-обучение посредством метаобучения

В этой статье основное внимание уделяется использованию метаобучения и китайского ресторанного процесса для быстрого обновления моделей обучения с подкреплением, когда они работают онлайн (т. Е. В производстве). Это вызвано тем фактом, что люди часто сталкиваются с новыми ситуациями, которых мы (точно) не испытывали раньше; однако мы можем использовать наш прошлый опыт в сочетании с отзывами о новом опыте для быстрой адаптации.

Подход авторов сначала использует MAML для первоначального обучения модели. После того, как MAML дает эффективный приоритет, следует использование алгоритма онлайн-обучения. Алгоритм онлайн-обучения использует процесс китайского ресторана для создания новых моделей с соответствующей инициализацией или для выбора существующей модели. Затем SGD используется для обновления параметров модели на основе результатов. Авторы называют этот предложенный метод мета-обучением для онлайн-обучения (или сокращенно MoLE).

Авторы оценивают свою методологию на нескольких средах RL. Первая среда - это симулированный гепард, пересекающий склоны различной сложности. Вторая среда - шестиногий робот-ползун с искалеченными ногами. MOLe превосходит RL на основе модели, адаптацию k-shot с метаобучением и непрерывные шаги градиента с метаобучением (хотя, что интересно, он лишь немного превосходит шаги градиента с ML).

Научиться учиться, не забывая, максимизируя передачу и сводя к минимуму помехи

Когда нейронная сеть изучает последовательность задач, она часто сталкивается с проблемой, называемой катастрофическим забыванием. Из-за катастрофического забывания нейронная сеть больше не может хорошо выполнять предыдущие задачи, на которых она была обучена. Катастрофическое забывание можно рассматривать как частный случай трансферного обучения, когда существует значительный отрицательный обратный перенос. Трансферное обучение (как его называют большинство людей) и мета-обучение обычно стремятся максимизировать прямую положительную передачу конечной задачи, но обычно не обращают внимания на влияние на исходную задачу (задачи). В этой статье делается попытка достичь большего баланса там, где они все еще хотят иметь положительный перенос, но не за счет катастрофического забывания (вмешательства).

Для решения этой проблемы Riemer et al. предложить подход под названием Meta Experience Replay (MER). MER использует стандартное воспроизведение опыта, где прошлые обучающие примеры чередуются с текущими обучающими примерами, чтобы предотвратить катастрофическое забывание. У этих прошлых примеров более низкая скорость обучения. Во-вторых, MER использует популярный алгоритм метаобучения REPTILE для обучения новым данным. Однако MER чередует предыдущие примеры из буфера памяти с новыми входящими примерами во внутренний цикл обучения, работающий от REPTILE, чтобы предотвратить катастрофическое забывание.

Мне нравится, что в этой статье исследуются как идеи положительного, так и отрицательного переноса. Его результаты на Омниглоте и в настройке обучения с подкреплением кажутся неплохими. Однако, особенно в настройке контролируемой классификации, авторы тестируют только игрушечные наборы данных. Они также должны были пройти тестирование на тесте CIFAR-10, CALTech-Birds или CORRE50. На данный момент нет реальной причины тестировать только на пермутированном MNIST или Omnigolt, когда есть много других более реалистичных наборов данных CL. Кроме того. Мне показалось, что некоторые из их терминологии сбивают с толку, поскольку авторы переименовали несколько ранее названных концепций. Кроме того, в идеале в случае непрерывного обучения нам не пришлось бы переучиваться на каких-либо предыдущих данных (поскольку переобучение требует дополнительных вычислительных затрат). Тем не менее, все и вся это шаг в правильном направлении, и я надеюсь, что больше статей будет посвящено как прямому, так и обратному переносу. Для получения дополнительной информации об этой статье у IBM есть сообщение в блоге и код находится здесь.

Пример эффективного адаптивного преобразования текста в речь

Это увлекательное приложение мета-обучения к моделированию seq2seq. В этом случае авторы используют мета-обучение, чтобы обеспечить адаптацию к голосу говорящего по несколько кадров. Это важно, поскольку во многих случаях у вас может не быть сотен или тысяч примеров голоса конкретного человека. В частности, авторы расширяют архитектуру WaveNet, чтобы включить метаобучение. Интересно, что, по словам авторов, MAML не произвел значимого априорного анализа в их предварительных экспериментах. Поэтому им пришлось разработать собственную архитектуру.

Архитектура функционирует в три этапа: (1) обучить модель на большом корпусе пар, говорящих по тексту, от различных говорящих; (2) адаптировать модель для нескольких пар говорящих по тексту от одного говорящего; и (3) наконец выполнить вывод на чистом тексте и преобразовать его в соответствующий голос. Авторы обсуждают два сценария для обучения по нескольким кадрам: параметрическая адаптация по нескольким кадрам с встраиваемым кодером (SEA-ENC) и непараметрическая адаптация по нескольким кадрам с точной настройкой (SEA-ALL). В случае SEA-ENC авторы обучают вспомогательную сеть встраивания, которая предсказывает вектор встраивания динамика с учетом новых данных. Напротив, для SEA-ALL авторы тренируют сеть и вложения вместе. При оценке SEA-ALL, кажется, работает лучше всего, хотя авторы заявляют, что модель, похоже, переоснащается SEA-ALL. Поэтому они рекомендуют использовать раннюю остановку. (Только на Librispeech в диапазоне 10 секунд их модель превосходит предыдущие статьи).

Эта статья является хорошим примером применения обучения по нескольким кадрам к сложной задаче, выходящей за рамки типичной области классификации изображений, и корректировок, необходимых для того, чтобы она действительно работала. Надеемся, что в будущем мы увидим больше попыток применить обучение по принципу несколько выстрелов к генеративным моделям. У авторов есть веб-сайт, на котором вы можете продемонстрировать их модель TTS, но, к сожалению, он не содержит их фактического кода.

Краткие резюме дополнительных актуальных документов в ICLR

K по цене 1: многозадачность с эффективными параметрами и переносное обучение

Mudrarkarta et al. представить патч модели, который состоит из небольшого количества обучаемых параметров, которые будут специализироваться для каждой задачи. Этот метод действует вместо общепринятой практики точной настройки последнего уровня сети. Авторы обнаруживают, что этот метод не только уменьшает количество параметров (с более чем 1 миллиона до 35k), но также улучшает точную настройку как в контексте передачи, так и в контексте многозадачного обучения. Единственный недостаток - патч кажется довольно специфичным для архитектуры.

Адаптация домена без учителя для дистанционного обучения

Хотя первая часть этой статьи называется «Адаптация домена без учителя», в ней действительно рассматривается трансферное обучение. Напомним, что при адаптации домена обычно целевые домены имеют одинаковый набор меток. Однако в этом случае авторы предполагают немеченый целевой домен. Как отмечают некоторые рецензенты, по этой причине статья сбивает с толку; однако у него все еще есть несколько стоящих решений. Авторы предлагают функцию передачи данных в сети FTN, чтобы разделить функциональное пространство исходного и целевого доменов. Авторы достигли современного перформанса по распознаванию лиц кросс-этнической принадлежности.

Изучение мета-решателя для синтаксического синтеза программ

В этой статье обсуждается применение метаобучения для синтеза программ. В нем они создают программу, управляемую синтаксисом, которая принимает логическую формулировку, а грамматика создает программу. Это хороший пример применения метаобучения, выходящего за рамки типичных наборов данных с несколькими снимками.

Аналитическая теория динамики обобщения и трансферного обучения в глубоких линейных сетях

Эта статья посвящена теории обучения и трансфертного обучения. Авторы заявляют, что «наша теория показывает, что передача знаний чувствительно, но вычислимо зависит от [отношения сигнал / шум] и согласования входных характеристик пар задач». В целом эта статья интересна тем, кто любит углубляться в теорию.

Заключение

Я надеюсь, что это дает хороший обзор большинства немногих учебных статей на ICLR в этом году (хотя я, вероятно, пропустил несколько). Как видите, существует множество интересных новых методов, которые теперь открывают способы использования глубокого обучения в ситуациях с ограниченными данными. Не пропустите вторую часть моей серии из трех частей ICLR, где я буду обсуждать достижения в области НЛП (включая диалог, ориентированный на цель), новые и улучшенные механизмы внимания, а также некоторые интересные новые типы повторяющихся архитектур.