Продолжая обзор литературы по алгоритмам полууправляемого обучения, мы подошли к недооцененному многопрофильному обучению.

С. 2. Многопрофильное обучение

Обучение с несколькими представлениями относится к классу методов обучения, в которых используется соглашение между разными учащимися. Здесь предположения о совместном обучении не требуются для моделей обучения с несколькими представлениями. Вместо этого несколько методов обучения (например, деревья решений, SVM и т. д.) обучаются на одном и том же размеченном наборе данных и должны делать прогнозы для любого заданного неразмеченного экземпляра. Многоракурсное обучение используется с 1993 года (де Са, 1993), когда оно применялось для решения задачи распознавания гласных. Он применялся к таким разнообразным задачам, как полууправляемая регрессия (Sindhwani, Niyogi & Belkin., 2005; Brefeld, Gaertner, Scheffer & Wrobel, 2006) и к более сложным структурированным выходным пространствам (Brefeld, Büscher & Scheffer, 2005; Брефельд и Шеффер, 2006). Теоретический анализ был проведен для определения ценности согласия между несколькими учащимися. (Лескес, 2005; Фаркуар, Хардун, Менг, Шоу-Тейлор и Сзедмак, 2006).

Ван и др. (2011) предлагает новое обучение с несколькими представлениями (MVL) для шаблонов из одного источника. Это делается путем преобразования векторного представления шаблонов в несколько матричных. Таким образом, архитектура базового классификатора преобразуется в подклассификаторы. Затем разрабатывается один совместный процесс обучения для многоракурсных подклассификаторов. В исходном базовом классификаторе используется классификатор Хо-Кашьяпа, ориентированный на векторный шаблон, с обучением регуляризации (называемый MHKS). Поэтому предлагаемое совместное обучение с несколькими представлениями метко названо MultiV-MHKS.

Как вы можете видеть на рис. 1, предлагаемый MultiV-MHKS превосходит другие алгоритмы благодаря новому подходу с несколькими представлениями. В 2012 г. Ван (Wang et al. 2012) предлагает регуляризованную версию MHKS под названием RMultiV-MHKS. Авторы оптимизируютвзвешенный вклад каждого подклассификаторас помощью метода поверхности отклика (RST) на данных перекрестной проверки.

Чжуан и др. (2012) предлагает новую генеративную модель для обучения с несколькими представлениями с помощью вероятностного латентно-семантического анализа, называемую MVPLSA. В отличие от совместного обучения, он совместно моделирует совместное появление функций и документов с разных точек зрения. Гуо и др. (2012) предлагает метод обучения с несколькими представлениями, который дополняет набор функций, используемых классификатором в одной модальности, отношениями сущностей, обнаруженными в других модальностях, чтобы обеспечить автоматическую обработку неструктурированной информации для облегчения оперативного принятия решений на поле боя.

С. 3. Обучение ансамблю

Ансамблевое обучение — это бомба! 💣— Было проведено множество исследований по проблеме объединения нескольких моделей классификации в комитет в области ансамблевого обучения (Bauer & Kohavi, 2004), (Кунчева, 2004). Это мощный способ объединения нескольких моделей, и нет никаких причин, по которым его нельзя было бы использовать и для решения полууправляемых задач. Сени и Элдер (2010) исследовали совсем недавний набег на ансамблевое обучение. Было показано, что хорошо известные методы, такие как бэггинг, бустинг и усреднение моделей, повышают точность и надежность по сравнению с отдельными методами. Это часто имеет место, поскольку индуктивное смещение для одной модели может идеально соответствовать пространству данных, а другая может ухудшить точность классификации. Следовательно, включение этих неконтролируемых моделей в ансамбль контролируемых моделей может привести к повышению эффективности прогнозирования.

Чжоу и др. (2004) предлагают новый метод полуконтролируемого обучения с одним взглядом, метко названный демократическим совместным обучением, который можно использовать для обучения на тех наборах данных, которые не имеют двух независимых и избыточных функций. Он работает, позволяя набору различных алгоритмов обучения обучать набор классификаторов отдельно на помеченном наборе данных. Концепции вывода объединяются с использованием взвешенного голосования для прогнозирования меток для немаркированных примеров. Новые помеченные примеры добавляются в обучающие наборы данных тех классификаторов, которые предсказывают иначе, чем большинство классификаторов. Процесс повторяется до тех пор, пока в обучающую выборку классификаторов не перестанут добавляться данные. Другая аналогичная концепция предложена Чжоу и Ли (2005b) под названием «три-тренинг». Как следует из названия, он использует трех учеников. Если два из них согласны с классификацией неразмеченного примера, метка используется при построении модели для третьего классификатора.

Эрнандес-Лобато и др. (2013). Размер репрезентативного параллельного ансамбля (например, бэггинга и случайного леса) определяется таким образом, чтобы стабильные сводные прогнозы были получены путем оценки минимального количества необходимых классификаторов. В Gao, Liang, Fan, Sun & Han (2013) ансамблевое обучение с выходными данными нескольких контролируемых и неконтролируемых моделей широко изучается с использованием подхода максимизации консенсуса на основе графа, по которому было проделано очень мало работы. Чжэн, Ли, Хун и Ли и др. (2013) использовали ансамблевую иерархическую кластеризацию для персонализированных рекомендаций по новостям. В своей работе они обнаружили, что методы, основанные на ансамбле, превосходят методы, основанные на одной группе профилей.

В следующей части мы поговорим о генеративных моделях, полууправляемых методах кластеризации и завершим эту серию.

Пожалуйста, найдите подробный набор ссылок в части 1 этой серии. Вопросы, комментарии — пожалуйста, не стесняйтесь оставлять их здесь.