Цель: эта статья представляет собой введение в векторы, векторные операции и их приложения в области науки о данных.

Почему вам следует его изучить. Это основа почти всех методов машинного обучения, позволяющих учиться на данных, будь то прогнозирование, классификация или кластеризация.

Оглавление:

  • Что такое вектор?
  • Добавление вектора
  • Скалярно-векторное умножение
  • Скалярное произведение
  • Линейные комбинации

Что такое вектор?

Вектор — это упорядоченный конечный список чисел. Чаще всего пишут так:

Элементы вектора — это значения внутри этого вектора. Эквивалентом Python являются массивы numpy. Размер (или длина) вектора — это количество его элементов:

Примеры:

  • Вектор признаков: во многих приложениях вектор собирает различные признаки одного объекта. Этими признаками могут быть измерения объекта, например возраст, рост, вес, кровяное давление пациента в больнице.
  • Временной ряд: вектор может представлять временной ряд или сигнал, то есть значение некоторой величины в разное время. Например, временные ряды могут представлять стоимость акций на фондовом рынке, а также что-то вроде почасового количества осадков в определенном регионе.
  • Покупки клиентов: вектор также может представлять собой запись о покупке конкретного клиента у предприятия, а записи вектора представляют собой сумму долларов, которую клиент потратил на определенный продукт.

Добавление вектора

Сложение векторов работает поэлементным сложением:

И аналогично векторное вычитание работает поэлементным вычитанием:

Примеры:

  • Подсчет слов: если векторы a и b являются подсчетами слов, обозначающими частоту данного слова в двух соответствующих документах A и B. , то сумма a + b дает комбинацию двух документов. Аналогично, разница a-b показывает, сколько раз каждое слово появлялось чаще в документе A, чем в B.
  • Временные ряды: если a и b представляют собой временные ряды одного и того же количества, например ежемесячной прибыли двух магазинов, то сумма a+b представляет собой временной ряд общей месячной прибыли двух магазинов.
  • Портфельная торговля: Предположим, у нас есть два вектора. Во-первых, вектор исходного портфеля s с записями, обозначающими количество акций данного актива в портфеле. Во-вторых, торговый вектор b с положительными элементами, указывающими количество купленных активов, и отрицательными элементами, указывающими количество проданных активов. Затем наш окончательный портфель определяется как s +b.

Умножение скаляра на вектор

Другой важной векторной операцией является умножение вектора на скаляр (это просто причудливое слово для «числа»), которое выполняется путем умножения каждого элемента вектора на скаляр:

Примеры:

  • Потребность в материалах: предположим, что вектор q — это спецификация материалов для производства одной единицы некоторого продукта, например мобильного телефона. Тогда записи q — это количество сырья, необходимого для производства одного мобильного телефона. Для производства 300 единиц мобильного телефона нам требуется сырье на 300q.
  • Масштабирование аудио: если вектор v представляет аудиосигнал (который, как мы узнали, является временным рядом), громкость сигнала можно увеличить в 3 раза, если мы возьмем скаляр, кратный 3в.

Точечный продукт

Сейчас это одна из самых важных операций в линейной алгебре, успевшая появиться во всех областях, связанных с наукой о данных, от линейной регрессии до нейронных сетей. Скалярное произведение двух векторов вычисляется путем умножения каждого из соответствующих элементов векторов и сложения полученных произведений. Посмотреть на себя:

Примеры:

  • Сумма: если мы возьмем скалярное произведение векторов a и b, где a состоит только из единиц и имеет ту же длину, что и b, мы получаем операцию суммы.
  • Среднее: если мы возьмем скалярное произведение векторов a и b, где a состоит только из 1/n элементов (n = общая длина векторов), мы получаем среднее значение вектора b.
  • Совместное появление: предположим, что векторы a и b являются векторами одинаковой длины, где элементы могут быть только 0 или 1, тогда скалярное произведение a и b дают общее количество записей, в которых оба вектора показывают 1. В некоторых случаях это может означать, что у нас есть одинаковый прогноз или функция.
  • Анализ настроений: Специфической проблемой текстоанализа является вопрос о том, является ли настроение (эмоциональная полярность) данного текста положительным, отрицательным или нейтральным. Мы можем применить первоначальный подход к этой проблеме, создав два вектора. Во-первых, вектор x длины n, представляющий частоты n слов в тексте. Во-вторых, вектор w той же длины, представляющий полярность данного слова, с элементами -1 (для отрицательных слов, таких как плохой или ужасный), 0 (нейтральные слова, такие как и ) или 1 (положительные слова, такие как хороший или крутой). Затем скалярное произведение x и w дает нам первую (грубую) меру настроения в тексте.

Линейные комбинации

Специальная интерпретация скалярного произведения, когда мы умножаем вектор x на другой вектор β, называется линейной комбинацией x:

Здесь элементы β называются коэффициентами. Линейные комбинации x составляют основу одного из самых популярных статистических инструментов для прогнозирования непрерывных величин — линейной регрессии. Он используется, например, при прогнозировании цен на жилье, когда у нас есть вектор признаков x и мы хотим найти оптимальное взвешивание этих признаков с помощью коэффициентов регрессии β для прогнозирования цены дома. учитывая особенности дома (например, площадь дома в квадратных футах, количество спален и т. д.)

На сегодня все, большое спасибо за прочтение! Подписывайтесь на меня, если хотите быть в курсе будущих статей, и ставьте аплодисменты, если статья вам понравилась!