Цель: эта статья представляет собой введение в векторы, векторные операции и их приложения в области науки о данных.
Почему вам следует его изучить. Это основа почти всех методов машинного обучения, позволяющих учиться на данных, будь то прогнозирование, классификация или кластеризация.
Оглавление:
- Что такое вектор?
- Добавление вектора
- Скалярно-векторное умножение
- Скалярное произведение
- Линейные комбинации
Что такое вектор?
Вектор — это упорядоченный конечный список чисел. Чаще всего пишут так:
Элементы вектора — это значения внутри этого вектора. Эквивалентом Python являются массивы numpy. Размер (или длина) вектора — это количество его элементов:
Примеры:
- Вектор признаков: во многих приложениях вектор собирает различные признаки одного объекта. Этими признаками могут быть измерения объекта, например возраст, рост, вес, кровяное давление пациента в больнице.
- Временной ряд: вектор может представлять временной ряд или сигнал, то есть значение некоторой величины в разное время. Например, временные ряды могут представлять стоимость акций на фондовом рынке, а также что-то вроде почасового количества осадков в определенном регионе.
- Покупки клиентов: вектор также может представлять собой запись о покупке конкретного клиента у предприятия, а записи вектора представляют собой сумму долларов, которую клиент потратил на определенный продукт.
Добавление вектора
Сложение векторов работает поэлементным сложением:
И аналогично векторное вычитание работает поэлементным вычитанием:
Примеры:
- Подсчет слов: если векторы a и b являются подсчетами слов, обозначающими частоту данного слова в двух соответствующих документах A и B. , то сумма a + b дает комбинацию двух документов. Аналогично, разница a-b показывает, сколько раз каждое слово появлялось чаще в документе A, чем в B.
- Временные ряды: если a и b представляют собой временные ряды одного и того же количества, например ежемесячной прибыли двух магазинов, то сумма a+b представляет собой временной ряд общей месячной прибыли двух магазинов.
- Портфельная торговля: Предположим, у нас есть два вектора. Во-первых, вектор исходного портфеля s с записями, обозначающими количество акций данного актива в портфеле. Во-вторых, торговый вектор b с положительными элементами, указывающими количество купленных активов, и отрицательными элементами, указывающими количество проданных активов. Затем наш окончательный портфель определяется как s +b.
Умножение скаляра на вектор
Другой важной векторной операцией является умножение вектора на скаляр (это просто причудливое слово для «числа»), которое выполняется путем умножения каждого элемента вектора на скаляр:
Примеры:
- Потребность в материалах: предположим, что вектор q — это спецификация материалов для производства одной единицы некоторого продукта, например мобильного телефона. Тогда записи q — это количество сырья, необходимого для производства одного мобильного телефона. Для производства 300 единиц мобильного телефона нам требуется сырье на 300q.
- Масштабирование аудио: если вектор v представляет аудиосигнал (который, как мы узнали, является временным рядом), громкость сигнала можно увеличить в 3 раза, если мы возьмем скаляр, кратный 3в.
Точечный продукт
Сейчас это одна из самых важных операций в линейной алгебре, успевшая появиться во всех областях, связанных с наукой о данных, от линейной регрессии до нейронных сетей. Скалярное произведение двух векторов вычисляется путем умножения каждого из соответствующих элементов векторов и сложения полученных произведений. Посмотреть на себя:
Примеры:
- Сумма: если мы возьмем скалярное произведение векторов a и b, где a состоит только из единиц и имеет ту же длину, что и b, мы получаем операцию суммы.
- Среднее: если мы возьмем скалярное произведение векторов a и b, где a состоит только из 1/n элементов (n = общая длина векторов), мы получаем среднее значение вектора b.
- Совместное появление: предположим, что векторы a и b являются векторами одинаковой длины, где элементы могут быть только 0 или 1, тогда скалярное произведение a и b дают общее количество записей, в которых оба вектора показывают 1. В некоторых случаях это может означать, что у нас есть одинаковый прогноз или функция.
- Анализ настроений: Специфической проблемой текстоанализа является вопрос о том, является ли настроение (эмоциональная полярность) данного текста положительным, отрицательным или нейтральным. Мы можем применить первоначальный подход к этой проблеме, создав два вектора. Во-первых, вектор x длины n, представляющий частоты n слов в тексте. Во-вторых, вектор w той же длины, представляющий полярность данного слова, с элементами -1 (для отрицательных слов, таких как плохой или ужасный), 0 (нейтральные слова, такие как и ) или 1 (положительные слова, такие как хороший или крутой). Затем скалярное произведение x и w дает нам первую (грубую) меру настроения в тексте.
Линейные комбинации
Специальная интерпретация скалярного произведения, когда мы умножаем вектор x на другой вектор β, называется линейной комбинацией x:
Здесь элементы β называются коэффициентами. Линейные комбинации x составляют основу одного из самых популярных статистических инструментов для прогнозирования непрерывных величин — линейной регрессии. Он используется, например, при прогнозировании цен на жилье, когда у нас есть вектор признаков x и мы хотим найти оптимальное взвешивание этих признаков с помощью коэффициентов регрессии β для прогнозирования цены дома. учитывая особенности дома (например, площадь дома в квадратных футах, количество спален и т. д.)
На сегодня все, большое спасибо за прочтение! Подписывайтесь на меня, если хотите быть в курсе будущих статей, и ставьте аплодисменты, если статья вам понравилась!