Введение

В области машинного обучения и анализа данных работа с многомерными данными может быть сложной задачей. Выбор признаков и извлечение признаков — два основных метода, которые помогают упростить сложные наборы данных и повысить производительность алгоритмов обучения. В этом блоге я стремлюсь объяснить разницу между выбором признаков и извлечением признаков, изучить различные методы для каждого из них и дать упрощенное представление об анализе основных компонентов (PCA).

  1. Разница между выбором функций и извлечением функций

Выбор признаков — это процесс выбора подмножества наиболее релевантных признаков из исходного набора признаков в наборе данных. Как отметили Чандрашекар и Сахин в «Обзоре методов выбора признаков. Компьютеры и электротехника», этот процесс направлен на уменьшение размерности данных, устранение нерелевантных или избыточных функций и повышение производительности алгоритма обучения [1].

С другой стороны, извлечение функций включает в себя создание новых функций путем объединения или преобразования исходного набора функций [2]. Этот метод также может уменьшить размерность, но он генерирует новые атрибуты, а не выбирает из существующих. Извлечение признаков может фиксировать сложные шаблоны и отношения в данных.

2. Различные методы выбора признаков

Существует несколько методов выбора признаков, в том числе:

а) Методы фильтрации: они основаны на внутренних свойствах набора данных и не включают алгоритмы обучения. Примеры методов фильтрации включают критерий хи-квадрат, получение информации, коэффициент корреляции и т. д. [1].

б) Методы-оболочки: они оценивают производительность алгоритма обучения, добавляя или удаляя функции. Примеры включают прямой выбор, обратное исключение и рекурсивное исключение признаков [3].

в) Встроенные методы: они интегрируют выбор признаков в алгоритм обучения, оптимизируя процесс выбора одновременно с обучением модели. Примеры включают LASSO (оператор наименьшего абсолютного сокращения и выбора) и деревья решений [4].

3. Различные методы извлечения признаков

Методы извлечения признаков включают в себя:

а) Анализ основных компонентов (PCA): PCA — это метод линейного преобразования, который уменьшает размерность за счет создания новых некоррелированных функций, называемых основными компонентами [5].

b) Линейный дискриминантный анализ (LDA): LDA — это контролируемый метод, который уменьшает размерность, сохраняя при этом разделимость классов. Он максимизирует отношение межклассовой дисперсии к внутриклассовой дисперсии [6].

c) Автоэнкодеры: Автоэнкодеры — это неконтролируемые нейронные сети, которые обучаются эффективному кодированию и декодированию данных, уменьшая размерность при сохранении важной информации [7].

4. Упрощенное объяснение анализа главных компонентов (PCA)

Как упоминалось выше, PCA — это метод, который уменьшает размерность за счет создания новых функций, называемых основными компонентами. Эти компоненты представляют собой линейные комбинации исходных признаков и ортогональны друг другу. Первый главный компонент фиксирует максимальную дисперсию данных, а последующие компоненты фиксируют оставшуюся дисперсию в порядке убывания [5]. Этот процесс гарантирует сохранение наиболее важной информации при одновременном снижении сложности данных.

В целом, выбор признаков и извлечение признаков являются важными методами для упрощения многомерных данных и повышения производительности алгоритмов обучения. Понимая различные методы и их применение, специалисты по данным могут принимать более обоснованные решения при обработке сложных наборов данных.

Использованная литература:

[1] Чандрашекар, Г., и Сахин, Ф. (2014). Обзор методов выбора признаков. Компьютеры и электротехника, 40 (1), 16–28.

[2] Родригес, Дж. Д., Перес, А., и Лозано, Дж. А. (2010). Анализ чувствительности k-кратной перекрестной проверки при оценке ошибки прогнозирования. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(3), 569–575.

[3] Кохави Р. и Джон Г. Х. (1997). Обертки для выбора подмножества функций. Искусственный интеллект, 97 (1–2), 273–324.

[4] Хасти, Т., Тибширани, Р., и Фридман, Дж. (2009). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование. Нью-Йорк: Спрингер.

[5] Джоллифф, И. Т. (2002). Анализ главных компонентов. Спрингер-Верлаг Нью-Йорк.

[6] Фишер, Р. А. (1936). Использование множественных измерений в таксономических задачах. Анналы евгеники, 7 (2), 179–188.

[7] Хинтон, Г. Э., и Салахутдинов, Р. Р. (2006). Уменьшение размерности данных с помощью нейронных сетей. Наука, 313 (5786), 504–507.