Разработка функций

Разработка признаков — неотъемлемая часть построения и реализации моделей машинного обучения. В этой статье мы узнаем о контексте разработки функций в рабочем процессе машинного обучения. Кроме того, вы получите краткий обзор многих инструментов обработки данных, используемых в разработке функций, и того, как они помогают специалистам по данным в диагностике моделей.

Введение

Давайте теперь поговорим о «топливе» разработки признаков, которым являются «функции». Функция — это измеримое свойство в наборе данных, и функция используется в качестве входных данных для модели машинного обучения. Функции — это независимые переменные, используемые моделями машинного обучения для прогнозирования, которые могут быть как непрерывными, так и дискретными значениями. Так, например, если нам нужна модель, предсказывающая наличие у пациента определенных заболеваний, мы используем возраст, кровяное давление и т. д. в качестве входных данных для прогнозирования.

Инжиниринг признаков — это способ решения этих проблем. Эти проблемы включают в себя то, что может быть слишком много функций, и вы не знаете, какие функции использовать. Кроме того, некоторые функции могут быть сильно коррелированы, а некоторые могут не сильно меняться в зависимости от переменной результата. Неудивительно, что специалист по данным может потратить много времени на работу с независимыми переменными, чтобы решить, какая из них может соответствовать его модели.

Зачем нам нужна фиче-инжиниринг?

Многое может случиться и заставить модель сделать неправильный прогноз. Плохие характеристики — один из таких факторов.

Давайте поговорим о влиянии разработки признаков на алгоритмы ML:

Производительность. Производительность нашей модели машинного обучения резко возрастает, когда мы очень хорошо разрабатываем функции.
Время выполнения. Специализированные функции могут помочь алгоритму очень быстро изучить оценочную функцию входных данных. Вычислительная мощность, доступная во время любого проекта ML, влияет на алгоритм и количество данных, используемых во время обучения.
Обобщаемость.Наша модель будет хорошо обобщать невидимые данные, если она обучена на хорошо продуманной и репрезентативной функции.

Инжиниринг признаков — это инструментарий, используемый, когда алгоритм не может извлечь уроки из данных и упускает одно из вышеуказанных свойств.

Разработка функций и рабочий процесс машинного обучения

Процесс машинного обучения является итеративным, что означает, что каждый шаг рабочего процесса повторяется до тех пор, пока у нас не будет хорошей модели. Во многих учебниках разработка признаков представлена как шаг после исследовательского анализа данных, и кажется, что процесс линейный, но на самом деле он не является линейным.

Процесс разработки функций можно разделить на следующие категории:
1. Методы преобразования функций:
этот процесс включает в себя некоторые числовые преобразования, например, логарифмирование, масштабирование, группирование и т. д. Эти методы повышают производительность. , время выполнения и объяснимость модели.

2. Методы выбора признаков

Набор методов используется для выбора лучших рабочих функций для нашего варианта использования. Обычно они принадлежат к одной из этих трех категорий:

я. Методы фильтрации:
это статистические методы, используемые для «отфильтровывания» ценных функций. Это может быть использовано для любой модели и обычно выполняется перед моделированием. Они включают коэффициенты корреляции, chi², ANOVA, расчеты взаимной информации и т. д.

II. Методы-оболочки:
Этот метод зависит от стратегии «жадного поиска». Эта стратегия зависит от выбора подмножества функций, обучения модели и их оценки. Затем предыдущие шаги повторяются с другим подмножеством признаков. Наконец, снова обучите модель, пока не будет достигнута самая производительная модель с лучшими функциями. Обычно критерии остановки используются в зависимости от количества функций или достижения желаемой производительности. Этот метод применяется путем прямого выбора функции, обратной функции исключения или последовательного плавающего.

III. Встроенные методы.
Этот метод обычно реализуется на этапе построения модели. Этот метод зависит от некоторых методов, встроенных в каждый алгоритм. Например, Lasso и Ridge — это два метода регуляризации, используемые для настройки модели, чтобы она лучше обобщала невидимые данные. Кроме того, древовидные модели имеют встроенную функцию для определения важности каждой функции.

3. Методы уменьшения размерности:
Этот метод в основном используется, когда имеющиеся данные имеют проблему, которая является «Проклятием размерности». Уменьшение размерности позволяет ускорить время выполнения и повысить производительность. Таким образом, этот инструмент удобен при работе с набором данных высокой размерности и экономит много вычислительного времени и ресурсов. Наиболее популярными методами уменьшения размерности являются анализ главных компонентов (PCA), линейный дискриминантный анализ (LDA) и т. д.

Краткое содержание

В этой статье мы обсудили приемы методов инженерии признаков. В этой статье мы рассмотрели атрибуты, которые они стремятся улучшить, и их место в рабочем процессе машинного обучения.

Ресурсы:

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning