Больше не всегда лучше. Данные с высокой размерностью могут быстро стать непригодными из-за ограничений ресурсов и того, для чего вы планируете их использовать. Данные со 150 столбцами не дадут вам многого, если у вас нет вычислительного пространства для их анализа или если вы даже не знаете, что ищете. В качестве средства правовой защиты мы используем метод, называемый уменьшение размерности, чтобы уменьшить наши данные до размера, которым можно управлять и который будет содержать наиболее важную встроенную информацию.

Это дает нам несколько преимуществ. А именно, данные меньше, что невероятно важно при работе с дорогостоящими алгоритмическими подходами. Второе, возможно, более ценное преимущество заключается в том, что мы можем свернуть все наши столбцы на столько функций, сколько захотим, используя эвристику для определения объема потери информации каждый раз, когда мы сжимаем пространство функций. 100 столбцов внезапно превращаются в два, что невероятно ценно, когда мы хотим обучить модель, но не уверены, какие функции добавить в нашу модель.

Это может сбивать с толку, и это вполне понятно. Поистине сложно сказать, что мы можем получить большую часть нашей информации с помощью небольшой части данных, но у нас есть принципиальные способы сделать это, самый популярный из которых - анализ главных компонентов (PCA). Посмотрим, сможем ли мы выяснить, почему это так.

Пример Молота

Когда я учился в бакалавриате, я разговаривал с профессором, с которым работал над исследованиями, и начал спрашивать об анализе главных компонентов. Я никогда не видела более краткого и ясного объяснения PCA, чем то, что д-р Кристин Беннетт из политехнического института Ренсселера показывала мне на первом курсе колледжа, так что вся заслуга ей.

Когда ее спросили, она взяла крокетный молоток, стоявший в углу офиса, открыла жалюзи и выключила верхний свет. Вопрос был в том, как повернуть молоток так, чтобы тень, которую он отбрасывал на стену, выглядела максимально похожей на настоящую.

Мы поиграли с углом и положением, пока не получили профиль молотка: всю длину рукоятки, обе стороны головки. Как будто мы положили молоток на землю и смотрим на него прямо вниз.

На самом деле это интуиция, лежащая в основе PCA. Все, что мы делаем, это вращаем и преобразуем данные таким образом, чтобы мы могли найти их изображение, наиболее близкое к реальному. Однако мы не ограничены переходом от трех измерений к двум; мы можем перейти от 100 до 99, до 98… до трех или двух (хотя не рекомендуется использовать один). Все, что мы делаем, это уменьшаем размерность на единицу, а затем повторяем, пока не получим желаемое количество функций.

Часть Матье

Но вы не можете физически взять свои данные и раскрутить их. Даже если бы вы могли, как вы должны сделать это в 100 измерениях?

Нам нужны математические формализации идеи, выраженной на примере молотка. А именно, мы будем полагаться на дисперсию данных, чтобы подсказывать нашей интуиции, как преобразовать их, чтобы максимально использовать доступную информацию в более низком измерении.

Основная идея заключается в следующем: мы хотим повернуть данные так, чтобы мы могли найти для них ортогональный базис, а затем использовать только ортогональные векторы, которые имеют наибольшую дисперсию.

Легче всего осмыслить, работая в трех измерениях. Почему бы не использовать наш пример с молотком? Допустим, у нас есть форма, которая выглядит примерно так.

Мы хотим найти ортогональный базис, который лучше всего описывает форму с точки зрения ее дисперсии. Учитывая эту цель, мы можем найти решение с ограничениями, которое выглядит следующим образом.

Чем этот новый ортогональный базис отличается от уже существующего? Все, что мы сделали, это переместили начало координат и немного повернули, верно?

Ну точно. Это небольшое преобразование дает нам новую ортогональную основу, которая на самом деле лучше описывает дисперсию наших данных! Посмотрите, что происходит, когда мы используем его в качестве нашей новой основы.

Видеть? Эта новая система координат отражает дисперсию наших данных намного лучше, чем исходная ортогональная основа.

Теперь вопрос в том, какое ортогональное направление удалить, чтобы уменьшить размерность. Мы хотим удалить тот, который имеет наименьшую дисперсию, равную сумме среднего квадрата разницы от среднего. Для наших целей мы можем думать об этом как о направлении, которое имеет наименьшее распространение для наших данных, что согласуется с идеей о том, что одни направления будут иметь меньше информации, чем другие.

Давайте посмотрим на различные возможные ориентации данных за вычетом одного направления.

Должно быть ясно, что направление Z является наиболее важным для понимания наших данных на основе их разброса. Это будет наш первый главный компонент.

Второе направление более хитрое. X или Y говорят нам больше о данных? Учитывая нашу меру на основе дисперсии, мы хотим выбрать направление Y. Это потому, что ширина головки молотка меньше его глубины. Другими словами, разница в размере головки молотка больше в направлении Y, чем в направлении X, поэтому мы выбираем Y и Z в качестве наших основных компонентов и отбрасываем нашу функцию X. Наши данные теперь выглядят как крайнее правое изображение выше.

Вуаля! У нас есть данные в двух измерениях из трех. Эта идея применима независимо от того, сколько функций имеет ваши данные, будь то три или три тысячи. Анализ главных компонентов отлично подходит для исследовательского анализа данных, особенно когда вы хотите визуализировать свои примеры на простой координатной плоскости X-Y. Вы также можете использовать свои сокращенные данные в качестве функций при обучении модели - гораздо, намного лучшее решение, чем выгрузка пятисот переменных в нейронную сеть в надежде на лучшее.

PCA сохранит ваш скин, когда ваши данные слишком велики для понимания и вы не знаете, куда их девать. Это здорово, когда вы хотите бросить что-то в стену и посмотреть, что прилипает, так что попробуйте.

Оригинальная история здесь.

— — — — — — — — — — — — — — — — — —

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.