Здравствуйте, читатели, вот следующий очень интересный тип концепции и алгоритма машинного заработка, который называется деревом решений. Этот блог содержит введение в дерево решений и его математическую концепцию реализации.
Что такое дерево решений
Дерево решений представляет собой представление всех возможных решений для принятия решения на основе некоторых условий в графическом виде или в виде иерархического дерева.
Давайте возьмем пример, предположив, что мы должны решить, выходить ли на улицу и играть с друзьями, выходить на улицу и кататься на велосипеде, быть дома и играть в шахматы со своим братом или сестрой или быть дома и играть в онлайн-игру. Посмотрим, как будет принято решение.
Итак, на приведенном выше примере изображения мы приняли решение, преобразовав всю проблему в иерархическое дерево пошаговых решений или сегментов, чтобы получить окончательное решение. Это процесс принятия решений на основе дерева, называемый деревом решений.
Некоторые основные термины
- Энтропия. Она определяется как случайность данных или непредсказуемость данных. Целью алгоритма дерева решений является уменьшение энтропии данных до нуля или близкой к нулю путем их классификации на основе различных признаков и условий.
- Корневой узел. Корневой узел или дерево решений — это самый верхний узел, которому передается весь набор данных. Затем данные классифицируются от корневого узла к подузлам или дочерним узлам на основе некоторых признаков или условий. Например: на приведенном выше изображении дерева решений тип погоды является корневым узлом.
- Родительский узел и дочерние узлы. Каждый узел, который классифицирует данные на основе некоторого условия или функции, называется родительским узлом, а подузлы этого родительского узла называются дочерними узлами. Например: на приведенном выше изображении дерева решений «Тип погоды» является родительским узлом, а «Выйти на улицу» и «Оставаться дома» — его дочерними узлами. То же самое относится к узлу «Выйти на улицу» в качестве родительского узла и его подузлам «Играть с друзьями» и «Покататься на велосипеде» в качестве его дочерних узлов.
- Уровень классификации. Уровень классификации определяет количество классификаций данных. Когда данные передаются корневому узлу, это уровень классификации 0.
- Прирост информации. Если мы применим теоретический подход к этому термину, то прирост информации — это количество энтропии, которое уменьшается на каждом уровне классификации, или мы можем сказать, что уменьшение случайности и увеличение предсказуемости данных. Прирост информации рассчитывается на каждом уровне классификации путем сравнения энтропии данных до и после классификации.
- Листовой или конечный узел: Листовой узел является последним узлом в дереве решений, после которого дальнейшая классификация не может быть выполнена или не должна выполняться. Другими словами, листовой узел — это узел, в котором достигается наименьшая энтропия данных, а данные в листовом узле однородны по своей природе.
Концепция дерева решений
Концепция дерева решений представляет собой алгоритм, основанный на регрессии, который использует метод регрессии зависимости категориальной переменной от других категориальных независимых переменных, а затем выполняет классификацию, добавляя метку к каждому решению, то есть уникальное имя категории.
Дерево решений берет все данные и продолжает разбивать эти данные на подмножества в зависимости от определенных условий, пока каждое подмножество не станет однородным, т.е. все значения в подмножестве похожи друг на друга.
Рассмотрим следующие данные типа транспортного средства —
В этих данных необходимо принять решение о прогнозировании названия транспортного средства в соответствии с такими свойствами, как количество колес, высота транспортного средства и наличие двигателя. Дерево решений будет принимать каждое решение о свойствах и классифицировать транспортные средства на их основе до тех пор, пока каждая классификация не станет однородной следующим образом:
На уровне 0 предсказание типа транспортного средства невозможно, потому что типы транспортных средств очень случайны, и, следовательно, энтропия или случайность данных на уровне 0 очень высока.
На уровне 1 транспортные средства классифицируются на основе количества колес, которые они имеют, и, следовательно, мы можем классифицировать транспортные средства на колесные, трехколесные и четырехколесные. Поскольку случайность данных уменьшилась, энтропия этого уровня уменьшилась по сравнению с уровнем 0. Но есть еще случайные значения в каждой из 3-х категорий колес. Итак, мы снова переходим к классификации по другому признаку.
На уровне 2 транспортные средства снова классифицируются на основе того, есть ли у транспортного средства двигатель или нет. Здесь однородность или подобие данных в каждой категории достигается в двухколесном и трехколесном транспортном средстве, и энтропия в этих двух категориях становится равной нулю. Таким образом, дальнейшее распространение не требуется. Однако в четырехколесном распределении двигателей энтропия не достигла нуля, и поэтому нам нужно снова сегментировать эти данные.
На уровне 3, наконец, все данные стали однородными, а общая энтропия данных равна нулю. Теперь название транспортного средства можно легко и точно предсказать.
Работа дерева решений и математической концепции
Теперь вы можете подумать, как дерево решений узнает, какую функцию секционирования применять на каком уровне?
Чтобы понять это, сначала дерево решений вычисляет неопределенность или случайность в наборе данных на определенном уровне с помощью концептуальной метрики, называемой Примесь Джини. Затем он берет каждую функцию, классифицирует данные и сравнивает изменение примеси Джини на следующем уровне классификации с предыдущим уровнем с помощью метода, называемого Прирост информации. Любая функция или условие, дающие наибольший прирост информации, применяются к дереву решений на этом конкретном уровне.
- Формула для расчета примеси Джини выглядит следующим образом:
Здесь «C» — количество классов данных в конкретном узле, а «p» — вероятность. Итак, примесь Джини — это «сумма квадратов вероятности каждого класса или категории в наборе данных», уменьшенная на 1.
- Формула для расчета прироста информации выглядит следующим образом:
Здесь энтропия (T) представляет энтропию данных на текущем уровне «T», а энтропия (T, X) представляет энтропию данных после применения условия «X» на уровне «T».
Концепция дерева решений работает на алгоритме деревьев классификации и регрессии (CART), который использует эту метрику примесей Джини в качестве математического инструмента для обучения набора данных путем создания дерева решений.
Это все об этом блоге. Надеюсь, это было информативно. Спасибо за чтение…!!!