Выбор функций — это основная концепция машинного обучения. Нацеленный на выбор подмножества соответствующих функций для использования в построении модели, выбор функций является важным шагом, который может существенно повлиять на производительность модели. Одним из наиболее часто используемых методов повышения стабильности селекторов функций является интеграция результатов нескольких селекторов функций, также известная как ансамблевый выбор функций. Недостатки этого подхода заключаются в том, что он требует много времени, и до сих пор было проведено ограниченное исследование того, как уменьшить его вычислительные затраты при оценке стабильности.

Чтобы решить эти проблемы, исследовательская группа из Токийского университета и компании Preferred Networks предложила быстрый метод, основанный на моделировании, для оценки стабильности селекторов признаков ансамбля.

Идея предлагаемого метода заключается в создании симулятора селектора признаков, который имитирует поведение базового селектора и использует смоделированный селектор признаков ансамбля для оценки стабильности.

Предлагаемый алгоритм создает набор смоделированных селекторов, которые моделируют базовый селектор, а также набор данных. Затем он может быстро рассчитать стабильность, создав моделируемые селекторы функций ансамбля, которые содержат два параметра: количество полезных функций для задачи (n); и вероятность, которая отражает неопределенность, полученную как от селекторов признаков, так и от набора данных (p). Поскольку эти два параметра получаются при запуске реального селектора, в этом исследовании исследователи предполагают, что параметры уже были оценены.

В рабочем процессе предлагаемого алгоритма вычислительные затраты зависят от испытаний реальных селекторов, поэтому общая вычислительная сложность относительно невелика, что позволяет ускорить процесс вычисления стабильности.

Чтобы продемонстрировать применимость предложенного ими метода, команда провела эксперименты с тремя наборами данных экспрессии генов микрочипов: толстая кишка (Ding and Peng, 2005), лимфома (Ding and Peng, 2005) и простата (Nie et al., 2010). Для своего базового селектора функций они использовали обученный случайный лес, который присваивает оценку важности каждой функции, и другой случайный лес в качестве предиктора для оценки производительности выбранных функций. В качестве индекса стабильности они использовали попарное сходство Жаккара.

Результаты показывают, что предложенный метод может точно оценить стабильность селекторов признаков ансамбля при сохранении низкой стоимости вычислений. Команда считает, что их метод моделирования может помочь в оценке алгоритмов выбора ансамбля признаков с точки зрения стабильности и экономии времени за счет сокращения необходимого количества выполнений селекторов реальных признаков.

Статья Метод быстрой оценки стабильности селекторов признаков ансамбля размещена на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.