Здравствуйте, читатели, вот следующий очень интересный тип концепции и алгоритма машинного заработка, который называется деревом решений. Этот блог содержит введение в дерево решений и его математическую концепцию реализации.

Что такое дерево решений

Дерево решений представляет собой представление всех возможных решений для принятия решения на основе некоторых условий в графическом виде или в виде иерархического дерева.

Давайте возьмем пример, предположив, что мы должны решить, выходить ли на улицу и играть с друзьями, выходить на улицу и кататься на велосипеде, быть дома и играть в шахматы со своим братом или сестрой или быть дома и играть в онлайн-игру. Посмотрим, как будет принято решение.

Итак, на приведенном выше примере изображения мы приняли решение, преобразовав всю проблему в иерархическое дерево пошаговых решений или сегментов, чтобы получить окончательное решение. Это процесс принятия решений на основе дерева, называемый деревом решений.

Некоторые основные термины

  1. Энтропия. Она определяется как случайность данных или непредсказуемость данных. Целью алгоритма дерева решений является уменьшение энтропии данных до нуля или близкой к нулю путем их классификации на основе различных признаков и условий.
  2. Корневой узел. Корневой узел или дерево решений — это самый верхний узел, которому передается весь набор данных. Затем данные классифицируются от корневого узла к подузлам или дочерним узлам на основе некоторых признаков или условий. Например: на приведенном выше изображении дерева решений тип погоды является корневым узлом.
  3. Родительский узел и дочерние узлы. Каждый узел, который классифицирует данные на основе некоторого условия или функции, называется родительским узлом, а подузлы этого родительского узла называются дочерними узлами. Например: на приведенном выше изображении дерева решений «Тип погоды» является родительским узлом, а «Выйти на улицу» и «Оставаться дома» — его дочерними узлами. То же самое относится к узлу «Выйти на улицу» в качестве родительского узла и его подузлам «Играть с друзьями» и «Покататься на велосипеде» в качестве его дочерних узлов.
  4. Уровень классификации. Уровень классификации определяет количество классификаций данных. Когда данные передаются корневому узлу, это уровень классификации 0.
  5. Прирост информации. Если мы применим теоретический подход к этому термину, то прирост информации — это количество энтропии, которое уменьшается на каждом уровне классификации, или мы можем сказать, что уменьшение случайности и увеличение предсказуемости данных. Прирост информации рассчитывается на каждом уровне классификации путем сравнения энтропии данных до и после классификации.
  6. Листовой или конечный узел: Листовой узел является последним узлом в дереве решений, после которого дальнейшая классификация не может быть выполнена или не должна выполняться. Другими словами, листовой узел — это узел, в котором достигается наименьшая энтропия данных, а данные в листовом узле однородны по своей природе.

Концепция дерева решений

Концепция дерева решений представляет собой алгоритм, основанный на регрессии, который использует метод регрессии зависимости категориальной переменной от других категориальных независимых переменных, а затем выполняет классификацию, добавляя метку к каждому решению, то есть уникальное имя категории.

Дерево решений берет все данные и продолжает разбивать эти данные на подмножества в зависимости от определенных условий, пока каждое подмножество не станет однородным, т.е. все значения в подмножестве похожи друг на друга.

Рассмотрим следующие данные типа транспортного средства —

В этих данных необходимо принять решение о прогнозировании названия транспортного средства в соответствии с такими свойствами, как количество колес, высота транспортного средства и наличие двигателя. Дерево решений будет принимать каждое решение о свойствах и классифицировать транспортные средства на их основе до тех пор, пока каждая классификация не станет однородной следующим образом:

На уровне 0 предсказание типа транспортного средства невозможно, потому что типы транспортных средств очень случайны, и, следовательно, энтропия или случайность данных на уровне 0 очень высока.

На уровне 1 транспортные средства классифицируются на основе количества колес, которые они имеют, и, следовательно, мы можем классифицировать транспортные средства на колесные, трехколесные и четырехколесные. Поскольку случайность данных уменьшилась, энтропия этого уровня уменьшилась по сравнению с уровнем 0. Но есть еще случайные значения в каждой из 3-х категорий колес. Итак, мы снова переходим к классификации по другому признаку.

На уровне 2 транспортные средства снова классифицируются на основе того, есть ли у транспортного средства двигатель или нет. Здесь однородность или подобие данных в каждой категории достигается в двухколесном и трехколесном транспортном средстве, и энтропия в этих двух категориях становится равной нулю. Таким образом, дальнейшее распространение не требуется. Однако в четырехколесном распределении двигателей энтропия не достигла нуля, и поэтому нам нужно снова сегментировать эти данные.

На уровне 3, наконец, все данные стали однородными, а общая энтропия данных равна нулю. Теперь название транспортного средства можно легко и точно предсказать.

Работа дерева решений и математической концепции

Теперь вы можете подумать, как дерево решений узнает, какую функцию секционирования применять на каком уровне?

Чтобы понять это, сначала дерево решений вычисляет неопределенность или случайность в наборе данных на определенном уровне с помощью концептуальной метрики, называемой Примесь Джини. Затем он берет каждую функцию, классифицирует данные и сравнивает изменение примеси Джини на следующем уровне классификации с предыдущим уровнем с помощью метода, называемого Прирост информации. Любая функция или условие, дающие наибольший прирост информации, применяются к дереву решений на этом конкретном уровне.

  • Формула для расчета примеси Джини выглядит следующим образом:

Здесь «C» — количество классов данных в конкретном узле, а «p» — вероятность. Итак, примесь Джини — это «сумма квадратов вероятности каждого класса или категории в наборе данных», уменьшенная на 1.

  • Формула для расчета прироста информации выглядит следующим образом:

Здесь энтропия (T) представляет энтропию данных на текущем уровне «T», а энтропия (T, X) представляет энтропию данных после применения условия «X» на уровне «T».

Концепция дерева решений работает на алгоритме деревьев классификации и регрессии (CART), который использует эту метрику примесей Джини в качестве математического инструмента для обучения набора данных путем создания дерева решений.

Это все об этом блоге. Надеюсь, это было информативно. Спасибо за чтение…!!!