Добро пожаловать в наше исчерпывающее руководство по фундаментальным алгоритмам машинного обучения! В этом блоге мы углубимся в концепции, математику, предположения и практическую реализацию некоторых из наиболее широко используемых алгоритмов в этой области. Независимо от того, являетесь ли вы новичком, стремящимся построить прочную основу, или опытным практиком, желающим освежить свои знания, это руководство даст вам четкое представление о линейной регрессии, логистической регрессии, деревьях решений, случайных лесах, машинах опорных векторов (SVM) и анализ главных компонентов (PCA).

Мы изучим лежащую в основе математику, обсудим предположения, сделанные каждым алгоритмом, и предложим реальные сценарии для их реализации. Кроме того, я включил вопросы на основе интервью с ответами, чтобы помочь вам подготовиться к интервью, связанным с машинным обучением. Итак, давайте погрузимся и разгадаем мощные методы машинного обучения!

Линейная регрессия:

Линейная регрессия — это контролируемый алгоритм обучения, используемый для прогнозирования непрерывной целевой переменной на основе одного или нескольких входных признаков. Он предполагает линейную связь между функциями и целевой переменной.

Математические формулы

Функция гипотезы: hθ(x) = θ₀ + θ₁x₁ + θ₂x₂ + … + θₙxₙ

Функция стоимости: J (θ) = (1/2N) * Σ (hθ (xᵢ) — yᵢ)²

Правило обновления градиентного спуска: θⱼ := θⱼ — α * (1/m) * Σ(hθ(xᵢ) — yᵢ) * xⱼᵢ

Предположения

  1. Линейность. Связь между функциями и целевой переменной является линейной.
  2. Независимость. Входные функции не зависят друг от друга.
  3. Гомоскедастичность: дисперсия остатков постоянна на всех уровнях целевой переменной.

Вопросы и ответы на основе интервью

Q1. Какова цель линейной регрессии?

Ответ: Цель линейной регрессии — найти наиболее подходящую линию (или гиперплоскость в более высоких измерениях), которая минимизирует сумму квадратов различий между прогнозируемыми и фактическими целевыми значениями.

Вопрос 2. Что произойдет, если предположения о линейности и гомоскедастичности будут нарушены в линейной регрессии?

Ответ: Если допущения нарушаются, прогнозы модели могут быть неточными, а оценки коэффициентов могут быть ненадежными.

Вопрос 3. Как справиться с мультиколлинеарностью в линейной регрессии?

Ответ: Мультиколлинеарность возникает, когда два или более исходных объекта сильно коррелированы. Одним из подходов к решению этой проблемы является выбор признаков или уменьшение размерности с использованием таких методов, как PCA.

Q4. Какова роль скорости обучения (α) в градиентном спуске для линейной регрессии?

Ответ: скорость обучения определяет размер шага в каждой итерации градиентного спуска. Большая скорость обучения может привести к более быстрой сходимости, но может выйти за рамки оптимального решения, в то время как меньшая скорость может привести к медленной сходимости.

В5. Как вы оцениваете эффективность модели линейной регрессии?

Ответ: Производительность модели линейной регрессии можно оценить с помощью таких показателей, как среднеквадратическая ошибка (MSE), R-квадрат (R²) и средняя абсолютная ошибка (MAE).

Логистическая регрессия:

Логистическая регрессия — это алгоритм классификации, используемый для задач бинарной или многоклассовой классификации. Он моделирует вероятность бинарного результата, используя логистическую функцию.

В логистической регрессии цель состоит в том, чтобы найти оптимальные значения коэффициентов, которые максимизируют вероятность наблюдения заданных данных. Коэффициенты, умноженные на входные переменные и суммированные, дают логарифмические шансы положительного класса. Путем возведения в степень логарифмических шансов с использованием логистической или сигмовидной функции можно получить вероятности положительного класса.

Математические формулы

Функция гипотезы: hθ(x) = 1/(1 + e^(-θᵀx))

Функция стоимости (логарифмическая потеря или бинарная кросс-энтропия):

J (θ) = (-1 / N) * Σ [yᵢ log (hθ (xᵢ)) + (1 — yᵢ) log (1 — hθ (xᵢ)]

Предположения

  1. Линейность: взаимосвязь между функциями и логарифмическими шансами бинарного результата является линейной.
  2. Независимость. Входные функции не зависят друг от друга.
  3. Отсутствие мультиколлинеарности. Входные объекты не должны иметь мультиколлинеарности.

Вопросы и ответы на основе интервью

Q1. В чем разница между линейной регрессией и логистической регрессией?

Ответ: Линейная регрессия используется для прогнозирования непрерывных числовых значений, а логистическая регрессия используется для задач бинарной или многоклассовой классификации.

Вопрос 2. Как логистическая регрессия справляется с проблемами классификации нескольких классов?

Ответ: Логистическая регрессия может решать проблемы с несколькими классами с помощью таких методов, как регрессия Softmax.

Вопрос 3. Для чего используется логистическая функция в логистической регрессии?

Ответ: Логистическая функция отображает линейную комбинацию входных признаков и параметров модели в значение вероятности от 0 до 1, представляющее вероятность бинарного результата.

Q4. Как вы интерпретируете коэффициенты логистической регрессии?

Ответ: Коэффициенты логистической регрессии представляют собой изменение логарифмических шансов бинарного результата, связанное с единичным изменением соответствующего входного признака, при условии, что все остальные признаки постоянны.

В5. Какова цель регуляризации в логистической регрессии?

Ответ: Регуляризация в логистической регрессии помогает предотвратить переоснащение, добавляя штрафной член к функции стоимости, поощряя меньшие коэффициенты и уменьшая сложность модели.

Ничья спины

  1. Линейная граница принятия решения. Логистическая регрессия предполагает наличие линейной зависимости между входными переменными и логарифмическими шансами положительного класса. Это означает, что он может моделировать только линейные границы решений. Если взаимосвязь сильно нелинейна, логистическая регрессия может неточно фиксировать сложные закономерности в данных.
  2. Предположение о независимости. Логистическая регрессия предполагает, что входные переменные не зависят друг от друга. В реальных сценариях переменные часто могут быть коррелированы, что нарушает это предположение. Коррелированные переменные могут привести к смещенным и ненадежным оценкам коэффициентов.
  3. Ограничено бинарной классификацией. Логистическая регрессия предназначена для задач бинарной классификации, где целевая переменная имеет два класса. Он не может напрямую обрабатывать проблемы классификации нескольких классов без расширений или модификаций, таких как один против остальных или полиномиальная логистическая регрессия.
  4. Чувствительность к выбросам. Логистическая регрессия чувствительна к выбросам во входных данных. Выбросы могут существенно повлиять на коэффициенты и результирующую границу решения. Экстремальные значения могут исказить предполагаемые вероятности и повлиять на производительность модели.

Деревья решений

Деревья решений — это универсальные контролируемые алгоритмы обучения, используемые для классификации и регрессии. Они разбивают пространство признаков на области на основе значений признаков, чтобы делать прогнозы.

Предположения

  1. Нелинейные отношения. Деревья решений могут отображать нелинейные отношения между объектами и целевой переменной.
  2. Релевантность признаков. Деревья решений предполагают, что входные признаки релевантны для прогнозирования целевой переменной.

Вопросы и ответы на основе интервью

Q1. Как дерево решений решает, по какой функции разделить?

Ответ: Дерево решений выбирает функцию, которая обеспечивает наилучшее разделение на основе таких критериев, как Энтропия или примесь Джини. Он направлен на максимизацию прироста информации или прироста чистоты.

Вопрос 2. Как деревья решений обрабатывают отсутствующие значения в наборе данных?

Ответ: Деревья решений обрабатывают пропущенные значения, либо игнорируя выборки с пропущенными значениями, либо вменяя пропущенные значения на основе класса большинства или среднего/медианы признака.

Вопрос 3. Что такое обрезка в деревьях решений?

Ответ: Сокращение — это метод, используемый для уменьшения сложности и переобучения деревьев решений путем удаления ненужных ветвей или слияния похожих узлов на основе производительности проверочного набора.

Q4. Могут ли деревья решений обрабатывать категориальные переменные?

Ответ: Да, деревья решений могут обрабатывать категориальные переменные, выполняя бинарное разбиение на основе разных категорий. Каждая категория образует отдельную ветвь в дереве.

В5. Как деревья решений могут реагировать на небольшие изменения в данных?

Ответ: Деревья решений могут быть чувствительны к небольшим изменениям в данных, потому что небольшое изменение в обучающих данных может привести к другой структуре дерева и, возможно, к другим прогнозам.

Недостатки

  1. Переобучение. Деревья решений склонны к переоснащению, особенно когда им позволяют расти вглубь и усложняться. Переоснащение происходит, когда дерево фиксирует шум или нерелевантные закономерности в обучающих данных, что приводит к плохому обобщению и снижению производительности на невидимых данных. Такие методы, как сокращение и установка ограничений на глубину дерева, могут помочь смягчить переоснащение.
  2. Высокая дисперсия. Известно, что деревья решений имеют высокую дисперсию. Небольшие изменения в обучающих данных могут привести к значительному изменению древовидной структуры, что приведет к высокой нестабильности. Методы ансамбля, такие как случайные леса, помогают уменьшить дисперсию за счет усреднения прогнозов по нескольким деревьям.
  3. Чувствительность к дисбалансу данных. Деревья решений могут быть смещены в сторону мажоритарного класса в несбалансированных наборах данных. Если один класс доминирует в обучающих данных, дерево может отдать приоритет правильной классификации этого класса за счет класса меньшинства. Такие методы, как уравновешивание весов классов или методы повторной выборки, могут помочь решить эту проблему.

Конец первой части… Смотрите продолжение во второй части!