Улучшенное представление данных, решение проблемы классификации несбалансированных данных

Введение

Уменьшение размерности — это шаг предварительной обработки в машинном обучении для устранения нежелательных функций и повышения точности обучения. Чтобы уменьшить количество избыточных функций, существуют методы представления данных, каждый из которых имеет свои преимущества. С другой стороны, большие данные с несбалансированными классами — одна из самых важных проблем в распознавании образов и машинном обучении.

Метод может быть предложен в виде стоимостной задачи оптимизации, которая реализует процесс выбора и извлечения признаков одновременно.

Фаза извлечения признаков основана на уменьшении ошибок и поддержании геометрических отношений между данными путем решения многозадачной задачи оптимизации обучения. На этапе выбора признаков решается задача оптимизации с учетом затрат, основанная на минимизации верхнего предела ошибки обобщения.

Наконец, проблема оптимизации, которая состоит из двух вышеупомянутых проблем, решается путем добавления члена, чувствительного к стоимости, для создания баланса между классами без манипулирования данными. Чтобы оценить результаты сокращения признаков, для сокращенных данных используется многоклассовый линейный классификатор SVM.

Рассмотрение реального мира

В последние десятилетия, с увеличением объема данных в медицинской науке, появились данные, называемые данными микрочипов. Данные микрочипов — это данные, извлеченные из образцов тканей и клеток. Этот тип данных важен при диагностике заболевания и видов раковых образований в медицине. Это увеличение размерности увеличивает вычислительную стоимость системы и приводит к снижению показателя точности классификации.

Концепции позади

Большой размер набора данных делает выбор функций одной из самых фундаментальных и важных тем в машинном обучении. По мере увеличения количества признаков эффективность алгоритмов обучения сначала увеличивается, но с определенного момента и далее увеличение количества признаков не только не улучшает производительность алгоритма машинного обучения, но иногда снижает производительность этих алгоритмов. Помимо этой проблемы, с увеличением количества признаков возрастает потребность в большем количестве выборок данных, что увеличивает временную и пространственную сложность задачи.

Функции в данных можно разделить на три основные категории:

Нерелевантные функции. Это функции, которые несут небольшую информационную нагрузку и не имеют ничего общего с целями интеллектуального анализа данных, поэтому они обычно снижают производительность алгоритмов интеллектуального анализа данных.
Избыточные функции: функции, которые связаны с другими функциями и не связаны напрямую, например функции, которые можно использовать для вычисления других функций.
Релевантные функции. Это функции, которые оказывают большое влияние на точность классификации данных и являются основной целью методов выбора функций.

Методы уменьшения размерности можно разделить на две основные группы: выбор признаков и извлечение признаков.

При выборе функций лучшие функции выбираются на основе их вклада в окончательную производительность подхода. При этом типе уменьшения размерности часть информации может быть потеряна.

С другой стороны, подходы к извлечению признаков или сопоставлению направлены на то, чтобы найти другое представление данных, чтобы новое представление (т. [т.е. Анализ основных компонентов (PCA)], различающий классы [т.е. Линейный дискриминантный анализ (LDA)] или сохранение локальной или глобальной структуры данных (т. е. многочисленные методы обучения). При извлечении признаков размер можно уменьшить без потери исходной информации о признаках.

Высокая размерность и несбалансированность — распространенные проблемы с данными микрочипов. Несбалансированность — один из основных кризисов в классификации, и проблема становится более острой, когда набор данных имеет большое количество признаков. Традиционная классификация обычно отдает предпочтение мажоритарному классу для выбора атрибутов, что приводит к низкой производительности при настройке параметров или выборе атрибутов, которые лучше описывают мажоритарный класс. Для решения проблемы дисбаланса существуют различные решения, которые можно разделить на две основные категории на основе данных и модели. В методах, основанных на данных, предпринимается попытка достичь ожидаемого баланса путем уменьшения данных большинства классов или создания данных из распределения меньшинства классов. В методах, основанных на модели, предпринимается попытка построить модель, чувствительную к цене неправильной классификации данных меньшинства. Эти методы называются методами с учетом затрат или, для краткости, методами на основе моделей.

Общая цель — предоставить модель, рассматривая проблему баланса данных, решая проблему оптимизации в комбинированном методе выбора и извлечения признаков. одновременно и повышая точность и аккуратность.

Сопутствующие работы

Сокращение признаков как шаг предварительной обработки может удалить ненужные данные, шум и дополнительные признаки. Сокращение признаков основано на двух основных методах: выборе признаков и извлечении признаков.

Извлечение признаков

Методы извлечения признаков извлекают новые признаки из исходного набора данных и очень полезны, когда мы хотим уменьшить количество ресурсов, необходимых для обработки, без потери соответствующего набора данных признаков. Вместо удаления нескольких признаков изменяется пространство входных данных. Когда данные отображаются из входного пространства в пространство меньшего размера путем преобразования; изменяется характер основных признаков.

Анализ основных компонентов (PCA) – это простой метод извлечения и внедрения признаков. PCA — это неконтролируемый метод, который широко используется в качестве базового подхода к отображению объектов, но он выполняет задачу неконтролируемым образом. Напротив, наш метод на самом деле является контролируемым методом, который использует метки в процессе сокращения признаков.

Алгоритм уменьшения размерности уменьшает размерность пространства за счет сохранения симплексной структуры и может использоваться в качестве метода черного ящика для ускорения алгоритмов, работающих в информационных пространствах расхождения. Он показывает, как эффективно внедрять информационные расстояния, такие как x2 и расхождения Дженсена-Шеннона, в малоразмерные пространства, сохраняя при этом все попарные расстояния. Помимо определения пространства признаков, основное различие между этим методом и предлагаемым подходом заключается в том, что мы учитываем стоимость неправильной классификации при извлечении признаков, которое направлено на решение проблемы несбалансированных данных.

Выбор функции

Основная цель выбора признаков — выбрать подходящее количество атрибутов для выполнения задач классификации.

Обычные методы выбора признаков выполняют операции выбора признаков по всему выборочному пространству. Предлагается алгоритм выбора локальных признаков на основе фильтров, основанный на искусственной иммунной системе, которая определяет подмножество соответствующих локальных признаков для каждой области, прилегающей к пространству выборки. В этом алгоритме представлен алгоритм выбора для оптимизации пространства поиска подмножеств атрибутов и используется идея локальной кластеризации в качестве критерия оценки, который максимизирует расстояния между классами и минимизирует расстояния внутри классов.

Мы выбираем хорошие функции, оптимизируя многомерные критерии на основе разреженного представления. Чтобы измерить сложность классификации в различных пространствах признаков, сначала предлагается критерий оценки признаков, который называется покрытие области подсчета (CRC). Затем, одновременно оптимизируя частоту ошибок классификации и сложность границы разделения, предоставляется структура выбора признаков.

Предлагаемый подход выполняет процесс выбора признаков на основе минимизации предела обобщенной ошибки. Этот метод одновременно выполняет редукцию классификационных признаков. В этом методе используется линейная модель, основанная на машине опорных векторов, которая выполняет операцию классификации данных с уменьшенными размерами. Таким образом, выбор признаков и классификация выполняются одновременно.

Выбор нескольких функций обучения ядра (MKL-FS) использует методы ядра для поиска сложных свойств каждой функции. Однако доступные ядра обычно ограничиваются положительными ограничениями. Фактически, некоторые отрицательные ядра часто могут работать лучше в реальных приложениях. Однако из-за невыпуклости неопределенных ядер большинство методов обычно непрактичны, а релевантные исследования относительно ограничены. Кроме того, предлагается двухэтапный алгоритм оптимизации неопределенной машины опорных векторов ядра (IKSVM) и коэффициентов комбинации ядер. Предлагается подход к классификации текстовых веб-документов с использованием преимуществ иерархической структуры для удаления из векторов атрибутов слов, не связанных с лексическими категориями WordNet.

Представлен критерий оценки выбранных признаков на основе качества признаков. Основная идея состоит в том, чтобы использовать разреженное представление для независимого тестирования каждой функции. Кроме того, для оценки предлагаемого метода был использован метод классификации на основе признаков. Можно предложить метод эффективного выбора признаков на основе расстояния (ED-Relief), который используется в качестве комплексного измерения расстояния для одновременной оптимизации внутриклассовых и межклассовых расстояний также в предложены алгоритм выделения признаков на основе ассоциативных правил и интегральный алгоритм классификации на основе случайной выборки.

Предлагается новый гибридный метод выбора признаков, называемый алгоритмом IGIS, для выбора признаков на основе информации о взаимодействии. Этот алгоритм использует критерий JMI для поиска атрибутов-кандидатов для добавления к набору атрибутов и добавляет один атрибут к текущему выбранному подмножеству в любое время. При добавлении атрибута в выбранный набор атрибутов список атрибутов пересчитывается.

Взаимодействующие функции — это те, которые кажутся нерелевантными или слабо релевантными для класса по отдельности, но в сочетании с другими функциями они могут сильно коррелировать с классом. Взаимодействующие функции — это функции, которые, среди прочих функций, могут быть связаны с классом. По отдельности они кажутся неуместными или слабыми в классе. Обнаружение взаимодействия функций — сложная задача при выборе функций. В новом алгоритме выбора функций предлагается учитывать взаимодействие функций. Алгоритмы выбора признаков на основе взаимной информации, хотя и работают хорошо во многих случаях, в настоящее время страдают двумя недостатками: (1) игнорирование взаимодействия признаков. (2) Переоценка некоторых характеристик. Чтобы преодолеть эти недостатки, предлагается новый алгоритм выбора признаков фильтра, основанный на взаимной информации, взвешенной по WJMI. Предотвращает переоценку некоторых функций, учитывая их взаимодействие.

Дисбаланс обучения

Одним из основных и простых методов редукции данных для несбалансированных наборов данных является метод, который случайно удаляет часть данных большинства классов. Метод Сокращенное правило ближайшего соседа (CoNN) использует аналогичный подход для удаления выборок, которые находятся дальше друг от друга, чем большинство данных. Он устраняет шумные и приграничные образцы. Метод кластеризации используется для сохранения распределения данных классов меньшинства и большинства после удаления данных. Также был реализован подход, основанный на эволюционных алгоритмах, в котором выбор образцов для удаления осуществляется как задача поиска.

Один из самых популярных методов генерации данных для меньшинства называется методом SMOTE. В этом методе выборки для класса меньшинства генерируются путем интерполяции соседних данных. Были предложены некоторые подходы для устранения недостатков SMOTE. Вдохновленный SMOTE метод для уменьшения тенденции к перекрытию между классами большинства и меньшинства используется, который называется Borderline-SMOTE. Также LN-SMOTE и SMOTE безопасного уровня являются развитием методов исследования.

Предлагается метод, называемый высокоприбыльные машины опорных векторов с высокой рентабельностью. В этом методе цель состоит в том, чтобы увеличить маржу класса меньшинства и уменьшить маржу класса большинства. Эта операция выполняется путем манипулирования параметром стоимости C в машине опорных векторов и деления его на C+ для данных положительного класса и C− для данных отрицательного класса. Если положительный класс находится в меньшинстве, параметр С+ выбирается как большее число и наоборот. Чувствительная к стоимости проблема включена в классификацию экстремальных машин обучения (ELM) с аналогичным подходом.

Новый метод прогнозирования риска предлагается как несбалансированная классификация и решает проблему выбора признаков. В частности, представлена высокомаржинальная функция потерь, в которой участвует вес образцов. Соответственно, целевая функция оптимизации разработана с мягкой настройкой для повышения производительности, которая решается в итеративном контексте.

Обучение для конкретных классов на основе SMOTE использует выборку меньшинства в пространстве ядра для решения проблемы дисбаланса классов. Этот метод, основанный на взвешенном SMOTE на основе ядра (WKSMOTE), предлагает машину экстремального обучения SMOTE для конкретного класса (SMOTECSELM), машину экстремального обучения для конкретного класса (CS-ELM), которая использует преимущества выборки меньшинства и класса.

Связанные другие работы

Модель регрессии низкого ранга предназначена для извлечения и выбора признаков из изображений без векторизации. Для эффективного решения целевой функции была разработана основанная на оптимизации альтернатива коэффициентам Лагранжа. Путем извлечения функций и выбора функций каскадным образом, а также метода оптимизации, вдохновленного голубями (PIO), для выбора функций. Гибридный подход выполняется одновременно путем сокращения большинства данных с помощью теории грубых множеств и одновременного увеличения данных меньшинства с использованием метода SMOTE. Эти методы относятся к гибридным методам, основанным на данных.

Был разработан метод выбора функции, которая подчеркивает две проблемы. Одна из них — проблема дисбаланса классов, а другая — большой размер данных. Чувствительный к затратам подход в контексте проблемы вогнутой оптимизации и предлагает решение с помощью ньютоновского процесса. Чтобы предотвратить взрыв размеров пространства данных при сохранении статистической согласованности части набора данных, выбранного для обучения, был разработан подход к выбору обучающих данных на основе анализа Парето, выполняемого на дескрипторах классификации. Он также предоставляет эмпирические доказательства того, что этот подход сохраняет свою актуальность даже по сравнению с традиционными методами сокращения пространства и классическими алгоритмами машинного обучения.

Предлагаемая задача оптимизации также включает в себя функции, чувствительной к затратам, которая предназначена для того, чтобы сделать модель устойчивой к данным с несбалансированными метками, создавая баланс без манипулирования данными.

Термин чувствительный к стоимости относится к созданию сопротивления несбалансированным данным в процессе сокращения возможностей. Существование этого резистора заложено в предлагаемой задаче оптимизации. Поэтому предлагаемый метод используется на основе пространства признаков для решения проблемы дисбаланса.

Предлагаемый метод

Предположим, что X∈R^d×n — это матрица данных, которая представляет n данных d размерности, в которых xi равно i-й точке данных. Приведенная выше метка данных представлена вектором Y={y1…yn}Y={y1…yn}, где yi ∈{−1.+1}yi ∈{−1.+1}. Чтобы прояснить остальную часть предлагаемого подхода,

Матрица Z ∈ R^m×n является редуцированным скрытым представлением Z, где m≪dm≪d. Другими словами, матрица Z является результатом операции извлечения признаков на X, которая может быть сгенерирована с помощью следующего отображения:

X=QZ+ε,

В задаче оптимизации входные данные предполагаются сбалансированными. Это означает, что при наличии двух классов данных для каждого из них доступно примерно одинаковое количество данных. Поскольку это допущение не всегда верно для реальных наборов данных, для усиления указанной выше проблемы оптимизации добавляется функция, учитывающая затраты.

yi(∑j= xij ωj σjj+b) ≥ 1−ξi.

Извлечение признаков как решение проблемы оптимизации обучения с сокращенным многообразием основано на уменьшении ошибок и сохранении геометрических отношений между данными. Кроме того, для выбора признаков были приняты задачи оптимизации, основанные на минимизации вышеуказанной ошибки обобщения. Наконец, проблема оптимизации, объединенная из двух вышеупомянутых проблем, решается путем добавления чувствительного к стоимости выражения для создания баланса без манипулирования данными в несбалансированных данных. Блок-схема предлагаемого подхода проиллюстрирована на

Вычисление Q является наиболее сложным этапом подхода. Первая скобка Q вычисляется в O(nm), а вторая скобка имеет такую же сложность. Следовательно, сложность нахождения Q составляет O(2nm). Для решения уравнения , у нас есть шесть сумм, которые вычисляются по n. Поэтому, учитывая примерно постоянные операции при каждом суммировании, вычислительная сложность последнего этапа составляет O(cn).

Имея все эти сложности для max_iteration time, общая временная сложность алгоритма будет O(max_iteration * (n + 2 nm + cn)), где n — количество выборок, а m — количество окончательных извлеченных признаков. Следовательно, как видно, временная сложность алгоритма является линейной функцией от n и m, что не так много по сравнению с аналогичными подходами, и параллельная реализация подхода уменьшит время выполнения алгоритма.

Экспериментальная установка

Для оценки эффективности предложенного метода использовались коллекции данных из репозитория машинного обучения UCI, наборы данных многомерных микрочипов, а также несбалансированные наборы данных из репозитория KEEL.

Предпринимаются попытки использовать данные большого размера, чтобы при выполнении уменьшения размерности был достигнут ряд соответствующих признаков. Кроме того, использование данных с большим дисбалансом в их метках приведет к лучшей оценке производительности предлагаемого метода в условиях несбалансированных данных. Спецификации наборов данных тестовой классификации указаны в таблице.

Размер наборов данных в этой статье варьируется от 62 до 10 000, количество их признаков варьируется от 4 до 7129, а количество классов от 2 до 101. Коэффициент дисбаланса в таблице рассчитывается по следующему уравнению:

Коэффициент дисбаланса = размер класса большинства / размер класса меньшинства.

Метод оценки

Для оценки результатов подхода на сокращенных данных используется многоклассовый линейный SVM-классификатор. Для проведения экспериментов используется метод перекрестной проверки K-кратности. Для реализации и оценки SVM используется библиотека MATLAB libsvm, а в качестве настроек SVM используется линейное ядро с C = 1. Модель «один против одного» используется для классификации предлагаемого метода для мультиклассовых данных.

Настройки параметров

Наилучшие значения параметров получены с помощью алгоритма Particle Swarm Optimization (PSO) на наборе проверочных данных. Учитывая, что в предлагаемом методе имеются разные параметры, значения параметров β задаются равными 0,0001, C равными 0,1, а количество соседей считается равным 3, а также значения суперпараметров задачи задаются равными 20 и 50 в экспериментах.

Чтобы лучше продемонстрировать результаты экспериментов, производительность подходов по сравнению с процентом выбранных функций изображена на рис.

С подходом S-MVML-LA наклон диаграммы постепенно увеличивался, а затем неожиданно резко падал. Контур производительности предлагаемого метода с самого начала выше других и поддерживает производительность, которая показывает превосходство подхода.

Заключение

Здесь была предложена гибридная модель для уменьшения размерности данных, которая сочетает в себе выбор и извлечение признаков в контексте решения задачи оптимизации при создании баланса без манипулирования данными. В этом методе он использует преимущества выбора признаков и извлечения признаков вместе. При извлечении признаков он пытается решить проблему оптимизации многообразного обучения и выполняет выбор признаков как задачу оптимизации, основанную на минимизации общей границы ошибки. В оценках результаты точности и f-показателя сообщаются по тестовым данным. Приведены результаты сравнения предлагаемого метода с другими методами на 21 наборе данных из репозитория машинного обучения UCI, микрочипов и многомерных наборов данных, а также несбалансированных наборов данных из репозитория KEEL. Оценки указывают на превосходство предложенной модели над другими методами. В будущем предлагается оценить предлагаемый подход к реальным проблемам и приложениям.

смотрите также:

Новые материалы

Как создать диаграмму градиентной кисти с помощью D3.js

Резюме: Из этого туториала Вы узнаете, как добавить градиентную кисть к диаграмме с областями в D3.js. Мы добавим градиент к значениям SVG и применим градиент в качестве заливки к диаграмме с..

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning