Почему машинное обучение?
Машинное обучение — это извлечение знаний из данных. Это область исследований на стыке статистики, искусственного интеллекта и информатики, также известная как прогностическая аналитика или статистическое обучение. Применение методов машинного обучения в последние годы стало повсеместным в повседневной жизни. От автоматических рекомендаций о том, какие фильмы посмотреть, какую еду заказать или какие продукты купить, до персонализированного онлайн-радио и распознавания ваших друзей на ваших фотографиях, многие современные веб-сайты и устройства имеют в своей основе алгоритмы машинного обучения. Когда вы смотрите на сложный веб-сайт, такой как Facebook, Amazon или Netflix, весьма вероятно, что каждая часть сайта содержит несколько моделей машинного обучения. Помимо коммерческих приложений, машинное обучение оказало огромное влияние на исследования, основанные на данных. делается сегодня.
ОБУЧЕНИЕ:
Концепции машинного обучения делятся в основном на три типа.
- Контролируемое обучение
- Неконтролируемое обучение
- Обучение с подкреплением
Здесь мы сосредоточимся в основном на контролируемых и неконтролируемых методах.
Обучение с учителем (классификация):
Если вы хотите построить какую-либо модель в машинном обучении, у вас должны быть некоторые данные, в этих данных у вас есть некоторые входные и выходные данные. Если вы строите модель в этом типе данных, это обучение называется обучением с учителем. Обучение с учителем также называется методика классификации.
Что это значит?
предположим, что у вас есть такие данные
X=1 — — — — — — ->Y=1
X=2 — — — — — — →Y=4
X=3 — — — — — — →Y=9
X=4 — — — — — — →Y=16……..и так далее
Здесь X имеет входные значения, а Y имеет выходные значения. Вы знаете, что теперь вам нужно найти из X, как получить Y, этот тип метода называется контролируемым обучением.
Опять же разделение контролируемого обучения делится на два типа
а) Методы классификации б) Методы регрессии
Некоторые важные методы классификации:
(i) K-ближайший сосед (KNN)
(ii) Дерево решений
(iii) Наивный алгоритм Байеса
(iv) Машины опорных векторов (SVM)
(v) Логистическая регрессия
(vi) Методы ансамбля:
(a) Бэггинг (b) Повышение (c) Случайный лес
Некоторые важные методы регрессии:
(i) Линейная регрессия
(ii) Регрессия хребта
(iii) Регрессия Лассо
Неконтролируемое обучение (кластерный анализ):
В этом у вас есть только входные данные, у вас нет выходных значений для соответствующих входных выборок (кортежей). В этом ваше основное намерение — разделить, сгруппировать или сгруппировать на несколько частей для полезного бизнес-решения.
Например, у вас есть один супермаркет, на основе вашего профиля клиента или данных, которые вы хотите разделить на более прибыльных и менее прибыльных клиентов, этот способ сделать — кластерный анализ.
Некоторые важные методы кластеризации:
(i)k-средние
(ii) Иерархический кластер
(iii) Кластер на основе плотности
Методы оценки модели:
После создания вашей модели очень важно провести оценку модели, то есть, как работает ваша модель, уровень точности, уровень ошибок вашей модели, на все эти вопросы ответит оценка модели.
Для классификации:
(i) Матрица путаницы:
(a) Чувствительность (b) Специфичность (c) Точность (d) Отзыв
(ii) F-оценка
(iii) J-статистика
(iv) Каппа Коэна
(v) Рабочие характеристики приемника (ROC)/площадь под кривой (AUC)
(vi) Диаграмма подъема/усиления
Для кластерного анализа:
(i) оценка силуэта
(ii) локтевой метод
Помимо этого, вы должны изучить некоторые важные методы, которые
- Анализ основных компонентов (PCA)
- Разложение по сингулярному значению (SVD)
- Разница между расстоянием Махаланобиса по сравнению с косинусным расстоянием и евклидовым расстоянием
- Ядро PCA
- Алгоритм градиентного спуска
- Техника регуляризации
- Компромисс смещения и дисперсии
- Подгонка против подгонки
- Оценка максимально вероятного капюшона
Если вы изучите все вышеперечисленные темы с помощью кода Python/R, то вы ГЕРОЙ в области дракона.
Спасибо и удачи