Выбор многомерных признаков и присвоение данных — важная функция для анализа многомерных объектов. В этой работе мы предлагаем новый гибридный подход, сочетающий уменьшение атрибутов теории грубых множеств с кластеризацией отношений Грея. Проектирование кластеризации становится все более сложной задачей по мере увеличения размерности набора данных. Ранее алгоритмы кластеризации на основе ограничений, которые удовлетворяют заданным пользователем ограничениям, использовались для наборов данных высокой размерности. Такие алгоритмы имеют серьезные ограничения и могут привносить предубеждения пользователя, тем самым затрудняя обнаружение кластеров и скрытых отношений в наборе данных. В этой работе мы преобразуем значения высокой релевантности в один и тот же класс, используя отношение Грея, чтобы получить соответствующий кластер информации, который мы обрабатываем с помощью грубого набора для уменьшения атрибутов. Мы используем этот подход для анализа данных о разнообразии растений из Северной Америки и обнаруживаем, что высота над уровнем моря и количество видов могут отражать наиболее важные атрибуты набора данных. Этот анализ экологических данных представляет собой доказательство принципиальности нового гибридного подхода с использованием реляционной кластеризации Грея и теории грубых множеств.

Кластеризация обеспечивает лучшее понимание данных путем разделения точек данных на кластеры таким образом, что объекты в одном и том же кластере похожи [1], тогда как объекты в разных кластерах отличаются по заданной мере сходства [2]. Кластеризация многих алгоритмов изучалась в течение десятилетий, но в эпоху наводнения данных традиционный алгоритм кластеризации показывает трещины, и необходимы новые алгоритмы. В случае многомерных данных проблема кластеризации точек данных, которые не имеют достаточной релевантности признаков, становится большой проблемой [3]. Таким образом, кластеризация данных в случае многомерных данных ставит две отдельные проблемы: (1) поиск релевантных подпространств [4] и (2) обнаружение конечных кластеров. Алгоритмы кластеризации подпространств используют методы выбора измерения для формирования подпространства для каждого кластера. Алгоритмы кластеризации подпространств могут быть как жесткими, так и мягкими. При жесткой кластеризации, когда одна опорная точка может принадлежать одному и только одному кластеру, алгоритмы кластеризации подпространства производительности часто затрудняются трудным выбором соответствующих размеров кластеров. Ошибки пропуска релевантных измерений и включения нерелевантных измерений также вызывают проблемы при жесткой кластеризации подпространств. В алгоритмах кластеризации жестких подпространств выбранные измерения каждого кластера рассматриваются как одинаково важные. Однако в действительности размеры каждого подпространства обычно не одинаково важны для всех кластеров. При мягком кластеризации подпространств базовая точка может принадлежать более чем одному кластеру. В то время как алгоритмы кластеризации мягких подпространств могут удалять ненужные измерения, не назначая конкретное подпространство для каждого кластера, они не решают проблему релевантности признаков [5]. Их релевантные размерности, которые обычно имеют низкий вес, имеют тенденцию добавлять шум к процедурам поиска кластера в этих алгоритмах, что приводит к плохим результатам кластеризации [6]. Кажется, что такие алгоритмы можно было бы адаптировать для включения функции выбора измерения, назначая некоторые

размеры с нулевым весом; тем не менее трудно

определить, какие измерения должны быть взвешены 0, и до сих пор такой схемы нет. Более того, обычно для каждого кластера имеется небольшое количество релевантных измерений и очень много нерелевантных измерений. Таким образом, такая схема неэффективна. Однако, если мы сначала выберем размерность, а затем взвесим размерность, вычисления можно значительно сократить. Для обнаружения конечного кластера в большинстве алгоритмов кластеризации данных высокой размерности используется подход, основанный на центроидах, при котором устанавливаются начальные центроиды с последующим присвоением точек данных ближайшему центроиду. Обновление центроидов и переназначение точек данных в соответствии с критерием уточняет кластеры. Из приведенного выше обсуждения мы делаем вывод, что выбор измерения, взвешивание измерения и назначение данных (начальное и повторное назначение) являются тремя важными задачами для кластеризации данных высокой размерности.