Неконтролируемое машинное обучение

В неконтролируемом машинном обучении данные не помечены, поэтому система пытается учиться на данных без зависимости от меток. Система пытается идентифицировать закономерности в данных и присваивать им метки на основе того, как связаны атрибуты.

Большая часть доступных данных не размечена. Маркировка этих данных является дорогостоящей, утомительной и затратной с точки зрения времени.

Алгоритмы неконтролируемого обучения извлекают немаркированные данные, не требуя, чтобы люди размечали данные.

Некоторые из наиболее распространенных алгоритмов включают в себя:

Алгоритмы кластеризации. они в основном используются для идентификации групп похожих объектов или элементов из набора данных. Алгоритм найдет связи в данных без посторонней помощи.

Алгоритмы кластеризации помогают в анализе данных, сегментации клиентов, рекомендательных системах, поисковых системах, снижении размерности и сегментации изображений. К ним относятся:

  • Кластеризация K-средних
  • ДБСКАН
  • Иерархический кластерный анализ (HCA)

Алгоритмы обнаружения аномалий и обнаружения новинок — для обнаружения мошенничества с кредитными картами используется обнаружение аномалий. Это влечет за собой обнаружение необычных транзакций по кредитным картам. При обнаружении новизны обнаруживаются и выделяются новые экземпляры, которые кажутся отличными от всех других экземпляров в обучающем наборе. Эти алгоритмы включают в себя:

  • SVM одного класса
  • Изолирующий лес

Алгоритмы визуализации и уменьшения размерности — они получают большие сложные немаркированные данные и выводят 2D- или 3D-представление ваших данных. Они пытаются предотвратить перекрытие отдельных кластеров в визуализации, что позволяет легко понять, как организованы данные. Некоторые из этих алгоритмов включают в себя:

  • Анализ основных компонентов (PCA)
  • Ядро PCA
  • Локально-линейное вложение (LLE)
  • t-распределенное стохастическое встраивание соседей (t-SNE)

— Снижение размерности позволяет упростить данные без потери лишней информации. Хороший способ добиться этого — объединить несколько взаимосвязанных функций в одну. На примере пробега и возраста автомобиля можно использовать уменьшение размерности, чтобы свести эти две характеристики в одну, которая будет отражать износ автомобиля. Этот процесс известен как извлечение признаков.

— Отличная идея — уменьшить размеры обучающих данных с помощью алгоритма уменьшения размерности, прежде чем использовать его в другом алгоритме машинного обучения, поскольку это помогает уменьшить используемое дисковое пространство и память, а также помогает ему работать быстрее, а в некоторых случаях обеспечивает лучшую производительность.

Алгоритмы обучения ассоциации (правила) — эти алгоритмы копаются в больших объемах данных и обнаруживают отношения между атрибутами. Хороший способ использовать это может быть в данных о продажах. Это может показать, что определенные продукты или предметы покупаются вместе. К ним относятся:

  • Априори
  • Эклат

Поскольку метки нет, нет конкретного способа сравнения характеристик моделей в большинстве методов обучения без учителя.

Недостатки неконтролируемого обучения

  1. Он может не учитывать пространственные отношения в данных
  2. Интерпретация спектральных классов может занять слишком много времени.
  3. Иногда бывает сложно определить, научился ли алгоритм чему-то полезному.

Ознакомьтесь со следующей статьей, в которой мы рассмотрим некоторые из этих алгоритмов! 😁