Основываясь на вопросе Какую диаграмму выбрать «[1], которая поможет вам выбрать правильную диаграмму для ваших данных, мы разработали идею диаграммы Какое машинное обучение (ML) выбрать?
Прежде чем мы представим блок-схему «Какое машинное обучение (ML) выбрать?» давайте взглянем на общую картину и увеличим шаги, которыми эта блок-схема может помочь вам в выборе машинного обучения для решения бизнес-задачи.
Решив проблему и найдя ее решение, вы можете выполнить следующие шаги:
- Ваша стратегия может состоять в том, чтобы выбрать искусственный интеллект (ИИ) в качестве концептуальной основы.
- Одним из жизнеспособных подходов в области ИИ является машинное обучение (ML).
- После формулировки проблемы и изучения возможности сбора данных частью вашей методологии является выбор логической парадигмы обучения.
- Затем вы можете определить доступный тип данных и определить цель. Парадигма логического обучения, тип данных и цели являются критериями выбора метода физического обучения.
- Следующим шагом является выполнение процедуры рабочего процесса.
- Эта процедура рабочего процесса может быть настроена для конкретных методов.
- Наконец, вы можете выбрать алгоритм машинного обучения.
Конвейер обработки должен включать как минимум следующие этапы:
а.) Предварительная обработка и подготовка данных
б.) Выборка наборов данных для обучения и проверки
c.) Обучение модели, проверка и оценка
г.) Развертывание модели прогнозирования
e.) Мониторинг производственной модели, обратная связь и переобучение
Какое машинное обучение (ML) выбрать? Визуальная наука Информатика, ООО
Выбор логической парадигмы и метода обучения состоит из четырех основных категорий, четырех основных типов алгоритмов и двух основных методов. Четыре основные категории: контролируемые, полуконтролируемые, неконтролируемые и подкрепляющие. Четыре основных типа алгоритмов: классификация, регрессия, ассоциации и кластеризация. Двумя основными методами являются ансамблевые методы и поощрение обратной связи. Диаграмма вверху «Какое машинное обучение (ML) выбрать?» проведет вас через основные категории, типы данных и цели, чтобы выбрать типы алгоритмов или методы.
Понимание возможностей модели решения проблем, процессов, входных и выходных данных необходимо перед выбором модели машинного обучения. Применимая модель машинного обучения зависит от вашей проблемы и целей. Подходы машинного обучения применяются там, где очень сложно или невозможно разработать обычные алгоритмы для выполнения необходимых задач или решения проблем. Модели машинного обучения используются во многих областях, таких как реклама, сельское хозяйство, связь, компьютерное зрение, обслуживание клиентов, финансы, игры, инвестиции, маркетинг, медицина, робототехника, безопасность, визуализация и погода.
Диапазон алгоритмов бизнес/машинного обучения. Изображение: GEEKSFORGEEKS
Выбор применимой метрики для оценки моделей машинного обучения зависит от проблемы и целей. С точки зрения бизнеса двумя наиболее важными показателями являются точность и интерпретируемость. Степень точности измеряет — насколько надежен вывод, в то время как интерпретируемость (обоснованность) измеряет — насколько хорошо модель позволяет понять обоснование и аргументацию вывода решения.
Оценка точности модели машинного обучения имеет решающее значение при выборе и развертывании модели машинного обучения. Выбор правильной метрики точности для оценки вашей модели машинного обучения зависит от ваших целей решения проблемы и наборов данных. Прежде чем выбрать один из них, важно понять контекст бизнес-проблемы, плюсы и минусы, а также полезность каждой метрики ошибок.
Изображение Альвиры Свалин из Выбор правильной метрики для оценки моделей машинного обучения — Часть 1 «[2]» и Выбор правильной метрики для оценки моделей машинного обучения — Часть 2 [3]»
На приведенной выше диаграмме собраны и классифицированы полезные метрики для оценки моделей машинного обучения для различных алгоритмов, методов и приемов машинного обучения.
Например, измерение предсказания двоичного вывода (классификация) фиксируется в определенном макете таблицы — матрице путаницы, которая визуализирует, смешивает ли модель два класса. Каждая строка матрицы представляет экземпляры в реальном классе, а каждый столбец представляет экземпляры в прогнозируемом классе. Фиксируются четыре показателя: истинно положительный, ложноотрицательный, ложноположительный и истинно отрицательный.
Точность вычислений определяется четырьмя значениями в матрице путаницы. Дополнительные метрики с формулами справа и ниже — это метрики оценки классификации. Эти показатели включают, но не ограничиваются следующим: чувствительность, специфичность, точность, отрицательное прогностическое значение и точность.
Матрица путаницы и метрики оценки классификации. Изображение: Маниндер Вирк
Построение точной модели классификации может правильно классифицировать положительные результаты от отрицательных.
С другой стороны, измерение интерпретируемости (рассуждения) является более сложной задачей, поскольку не существует ни универсально приемлемого определения, ни объективной количественной меры. Как правило, непрозрачные методы обеспечивают более высокую точность, чем прозрачные. Существуют методы создания интерпретируемой прогностической модели, такие как апостериорная интерпретируемая модель или внутренне интерпретируемый алгоритм. Одна мера интерпретируемости, основанная на триптихной предсказуемости, стабильности и простоте, предложена Винсентом Марго в статье Как измерить интерпретируемость? «[4]”
Изображение Шараю Ране из Баланс: точность против интерпретируемости «[5]»
На диаграмме «Баланс: точность и интерпретируемость» показан компромисс между точностью и интерпретируемостью (рассуждениями) для различных алгоритмов, методов и приемов машинного обучения.
В целом, выбор метода машинного обучения зависит от вашей проблемы, целей и данных. Как мы упоминали выше, существует четыре основных категории, четыре основных типа алгоритмов и два основных метода. Диаграмма вверху «Какое машинное обучение (ML) выбрать?» проведет вас через основные категории, типы данных и цели, какие типы алгоритмов или методы выбрать. На приведенной ниже диаграмме показаны дополнительные методы горизонтального машинного обучения, такие как важность атрибутов и строк, извлечение признаков и обнаружение аномалий.
Методы машинного обучения. Изображение: Школа наук о данных
«Временные ряды — это метод машинного обучения, который прогнозирует целевое значение исключительно на основе известной истории целевых значений. Это особая форма регрессии, известная в литературе как авторегрессионное моделирование. Входными данными для анализа временных рядов является последовательность целевых значений». [Оракул]
Компоненты временного ряда. Изображение: Нирмал Гауд
Анализ временных рядов включает методы анализа данных временных рядов для извлечения значимых статистических данных и характеристик предикторов данных. Регрессия временных рядов, авторегрессионная динамика, представляет собой статистический метод прогнозирования будущего ответа на основе истории ответов.
Классифицированные алгоритмы ML. Изображение: палочка
После выбора сценария машинного обучения следующим шагом будет выбор алгоритма машинного обучения. Чтобы выбрать алгоритм машинного обучения, вы можете использовать диаграмму алгоритмов машинного обучения с разбивкой по категориям, которая представляет собой неполный список алгоритмов машинного обучения и интеллектуального анализа данных, организованных в виде иерархической древовидной диаграммы категорий алгоритмов машинного обучения.
Ваш тип данных является критическим фактором успеха при выборе алгоритма машинного обучения. Например, древовидные модели превосходят глубокое обучение на типичных табличных данных. Экспериментальный углубленный анализ алгоритмов машинного обучения на табличных наборах данных как с категориальными, так и с числовыми характеристиками, проведенный Лео Гринштайном и др., дал эмпирические результаты и понимание причин:
«1. Нейронные сети склонны к слишком плавным решениям
2. На нейронные сети больше влияют неинформативные функции
3. Данные не инвариантны при вращении, поэтому должны быть и процедуры обучения».
Сравнительный анализ на наборах данных среднего размера. Изображение: Лео Гринштайн и др.
Также, с одной стороны, модели глубокого обучения печально известны оптимизацией гиперпараметров. С другой стороны, древовидные модели (например, XGBoost) представляют собой более простые алгоритмы, их легче настраивать и они лучше всего работают с табличными данными.
На более высоком уровне это шесть архетипических методов анализа: описательный, исследовательский, интерференционный, предсказательный, предписывающий и причинно-следственный. Эти методы анализа определяются как:
Шесть архетипических анализов. Визуальная наука Информатика, ООО
• Описательная статистика – это дисциплина количественного описания основных характеристик набора данных.
• Исследовательский анализ данных (EDA) — это подход к анализу наборов данных для обобщения их основных характеристик в удобной для понимания форме, часто с визуальными графиками и возможностями динамической визуализации, без использования статистической модели или формулирования гипотезы.
• Вывод — это процесс получения выводов из данных, которые подвержены случайным изменениям.
• Предиктивная аналитика анализирует исторические факты, чтобы прогнозировать будущие тенденции, модели поведения или неизвестные события.
• Предписывающая аналитика объединяет большие данные, прошлые результаты, математические науки, бизнес-правила и машинное обучение, чтобы предлагать варианты решений, чтобы воспользоваться вероятным будущим исходом события или вероятностью возникновения ситуации.
• Причинность (причинность) – это связь между событием или совокупностью факторов (причиной) и вторым событием или явлением (следствием), где второе событие понимается как следствие первого.
Каждый метод архетипического анализа направлен на ответы на разные вопросы. Чем выше сложность анализа (с точки зрения знаний, стоимости и времени), тем ценнее результат ответа аналитического метода.
Значение методов аналитики. Визуальная наука Информатика, ООО
Учебные цели и задачи важны для установления. Организация целей помогает прояснить цели.
«Таксономия Блума — это набор из трех иерархических моделей, используемых для классификации образовательных целей обучения по уровням сложности и специфичности. Три списка охватывают цели обучения в когнитивной, аффективной и психомоторной областях.
Пересмотренная таксономия Блума. Изображение: Джессика Шабатура, UARK
Согласно пересмотренной версии таксономии Блума, существует шесть уровней когнитивного обучения. Каждый уровень концептуально отличается. Шесть уровней — это запоминание, понимание, применение, анализ, оценка и создание. Новые термины определяются как:
Пересмотренная таксономия Блума. Изображение: Джессика Шабатура, UARK
Согласно пересмотренной версии таксономии Блума, существует шесть уровней когнитивного обучения. Каждый уровень концептуально отличается. Шесть уровней — это запоминание, понимание, применение, анализ, оценка и создание. Новые термины определяются как:
● Запоминание: извлечение, распознавание и воспроизведение соответствующих знаний из долговременной памяти.
● Понимание: Построение смысла устных, письменных и графических сообщений посредством интерпретации, иллюстрации, классификации, обобщения, вывода, сравнения и объяснения.
● Применение: выполнение или использование процедуры путем выполнения или внедрения.
● Анализ: разбиение материала на составные части, определение того, как части соотносятся друг с другом и с общей структурой или целью посредством дифференциации, организации и атрибутирования.
● Оценка: Вынесение суждений на основе критериев и стандартов путем проверки и критики.
● Создание: объединение элементов в единое или функциональное целое; реорганизация элементов в новый паттерн или структуру посредством создания, планирования или производства».
[Андерсон и Кратвол, 2001, стр. 67–68]
Таксономия Блума, адаптированная для машинного обучения (ML). Визуальная наука Информатика, ООО
В адаптированной версии таксономии Блума для машинного обучения есть шесть уровней обучения модели. Каждый уровень представляет собой концептуально другую модель обучения. Шесть уровней: «Сохранение», «Сортировка», «Поиск», «Описание», «Дискриминативный» и «Генеративный». Таксономия Блума, адаптированная для терминов машинного обучения (ML), определяется как:
- Модели хранилища охватывают три перспективы: физическую, логическую и концептуальную модели данных. Физические модели данных описывают физические средства хранения данных. Логические модели данных описывают семантику, представленную конкретной технологией обработки данных. Концептуальные модели данных описывают семантику предметной области в рамках модели. Операции извлечения, преобразования и загрузки (ETL) представляют собой трехэтапный процесс, в ходе которого данные извлекаются, преобразуются и загружаются в модели хранилища. Собранные данные могут быть из одного или нескольких источников. Данные ETL могут храниться в одной или нескольких моделях.
- Модели сортировки упорядочивают данные в осмысленном порядке и в систематическом представлении, что позволяет осуществлять поиск, анализ и визуализацию.
- Модели поиска решают задачу поиска для извлечения информации, хранящейся в некоторой структуре данных или вычисляемой в пространстве поиска предметной области, либо с дискретными, либо с непрерывными значениями.
- Описательные модели определяют статистику, которая количественно описывает или обобщает функции из набора информации и определяет тенденции и взаимосвязи.
- Дискриминативные модели фокусируются на решении и лучше справляются с задачами классификации, разделяя пространство данных на классы, изучая границы.
- Генеративные модели понимают, как данные внедряются в пространство, и генерируют новые точки данных.
Пример архитектуры условно-генеративной состязательной сетевой модели. Изображение: Джейсон Браунли
Еще одним моментом принятия решения при выборе модели машинного обучения является разница между дискриминационной и генеративной моделями. Дискриминативный подход фокусируется на решении и лучше справляется с задачами классификации, разделяя пространство данных на классы путем изучения границ. Модели генеративного подхода понимают, как данные внедряются в пространство, и генерируют новые точки данных.
Дискриминативный против генеративного. Изображение: Шпаргалка по контролируемому обучению
В заключение, выбор машинного обучения (ML) зависит от множества сложных факторов и сложных компромиссов. Вам нужно будет учитывать как минимум четыре конкурирующих архитектурных фактора: точность, сложность, интерпретируемость/объяснимость и операции. Выбор машинного обучения, который уравновешивает все факторы принятия решений, очень важен. Потому что капитальные вложения на этапах конвейерной обработки являются дорогостоящими и требуют значительного времени и усилий. Поэтому очень важно использовать строгий процесс при выборе машинного обучения.
Далее прочитайте мою статью Точность: компромисс между погрешностью и дисперсией на странице https://www.linkedin.com/pulse/accuracy-bias-variance-tradeoff-yair-rajwan-ms-dsc.
— — — — — — — — — — — — — — — — — — — — — — — — — — — — -
[1] https://www.linkedin.com/pulse/how-choose-right-chart-your-data-yair-rajwan-ms-dsc
[2] https://medium.com/usf-msds/choosing-the-right-metric-for-machine-learning-models-part-1-a99d7d7414e4
[3] https://www.kdnuggets.com/2018/06/right-metric-evaluating-machine-learning-models-2.html
[4] https://towardsdatascience.com/how-to-measure-interpretability-d93237b23cd3
[5] https://towardsdatascience.com/the-balance-accuracy-vs-interpretability-1b3861408062