Неконтролируемое машинное обучение
В неконтролируемом машинном обучении данные не помечены, поэтому система пытается учиться на данных без зависимости от меток. Система пытается идентифицировать закономерности в данных и присваивать им метки на основе того, как связаны атрибуты.
Большая часть доступных данных не размечена. Маркировка этих данных является дорогостоящей, утомительной и затратной с точки зрения времени.
Алгоритмы неконтролируемого обучения извлекают немаркированные данные, не требуя, чтобы люди размечали данные.
Некоторые из наиболее распространенных алгоритмов включают в себя:
Алгоритмы кластеризации. они в основном используются для идентификации групп похожих объектов или элементов из набора данных. Алгоритм найдет связи в данных без посторонней помощи.
Алгоритмы кластеризации помогают в анализе данных, сегментации клиентов, рекомендательных системах, поисковых системах, снижении размерности и сегментации изображений. К ним относятся:
- Кластеризация K-средних
- ДБСКАН
- Иерархический кластерный анализ (HCA)
Алгоритмы обнаружения аномалий и обнаружения новинок — для обнаружения мошенничества с кредитными картами используется обнаружение аномалий. Это влечет за собой обнаружение необычных транзакций по кредитным картам. При обнаружении новизны обнаруживаются и выделяются новые экземпляры, которые кажутся отличными от всех других экземпляров в обучающем наборе. Эти алгоритмы включают в себя:
- SVM одного класса
- Изолирующий лес
Алгоритмы визуализации и уменьшения размерности — они получают большие сложные немаркированные данные и выводят 2D- или 3D-представление ваших данных. Они пытаются предотвратить перекрытие отдельных кластеров в визуализации, что позволяет легко понять, как организованы данные. Некоторые из этих алгоритмов включают в себя:
- Анализ основных компонентов (PCA)
- Ядро PCA
- Локально-линейное вложение (LLE)
- t-распределенное стохастическое встраивание соседей (t-SNE)
— Снижение размерности позволяет упростить данные без потери лишней информации. Хороший способ добиться этого — объединить несколько взаимосвязанных функций в одну. На примере пробега и возраста автомобиля можно использовать уменьшение размерности, чтобы свести эти две характеристики в одну, которая будет отражать износ автомобиля. Этот процесс известен как извлечение признаков.
— Отличная идея — уменьшить размеры обучающих данных с помощью алгоритма уменьшения размерности, прежде чем использовать его в другом алгоритме машинного обучения, поскольку это помогает уменьшить используемое дисковое пространство и память, а также помогает ему работать быстрее, а в некоторых случаях обеспечивает лучшую производительность.
Алгоритмы обучения ассоциации (правила) — эти алгоритмы копаются в больших объемах данных и обнаруживают отношения между атрибутами. Хороший способ использовать это может быть в данных о продажах. Это может показать, что определенные продукты или предметы покупаются вместе. К ним относятся:
- Априори
- Эклат
Поскольку метки нет, нет конкретного способа сравнения характеристик моделей в большинстве методов обучения без учителя.
Недостатки неконтролируемого обучения
- Он может не учитывать пространственные отношения в данных
- Интерпретация спектральных классов может занять слишком много времени.
- Иногда бывает сложно определить, научился ли алгоритм чему-то полезному.
Ознакомьтесь со следующей статьей, в которой мы рассмотрим некоторые из этих алгоритмов! 😁