1. Оценка расстояния: метод неконтролируемой фильтрации для выбора признаков в несбалансированном наборе данных (arXiv)

Автор : Катарина Фирдова, Селин Лабар, Артур Мартель.

Аннотация: В этой статье представлен новый метод фильтрации для неконтролируемого выбора признаков. Этот метод особенно эффективен для несбалансированного многоклассового набора данных, как в случае кластеров различных типов аномалий. Существующие методы обычно предполагают дисперсию признаков, что не подходит, когда разные типы наблюдений не представлены одинаково. Наш метод, основанный на ранговой корреляции Спирмена между расстояниями в наблюдениях и значениями признаков, позволяет избежать этого недостатка. Производительность метода измеряется на нескольких задачах кластеризации и сравнивается с существующими методами фильтрации, подходящими для неконтролируемых данных.

2. Структурное сходство: когда использовать глубокие генеративные модели для несбалансированного увеличения набора данных изображений (arXiv)

Автор: Ченци Го, Фабиан Бенитес-Кирос, Цяньли Фэн, Алейкс Мартинес.

Аннотация: Повышение производительности на несбалансированном тренировочном наборе является одной из основных задач современного машинного обучения. Один из способов увеличить и, таким образом, повторно сбалансировать набор данных изображений — использовать существующие глубокие генеративные модели, такие как генеративно-состязательные сети с условными классами (cGAN) или диффузионные модели, путем синтеза изображений в каждом из хвостовых классов. Наши эксперименты по классификации несбалансированных наборов данных изображений показывают, что повышение точности проверки с помощью такого метода повторной балансировки связано со сходством изображений между разными классами. Таким образом, для количественной оценки сходства классов этого набора данных изображений мы предлагаем измерение, называемое структурным сходством суперподклассов (SSIM-supSubCls), основанное на структурном сходстве (SSIM). Конвейер глубокой классификации данных генеративной модели (GM-augCls) также предоставляется для проверки корреляции этой метрики с повышением точности. Далее мы количественно оцениваем взаимосвязь между ними, обнаружив, что улучшение точности затухает экспоненциально по отношению к значениям SSIM-supSubCls.