Существует более 5 широко используемых дистанционных функций.

Измерение сходства между двумя объектами вычисляется с помощью математических формул, называемых функциями расстояния.

Почти все алгоритмы машинного обучения в течение своей жизни вычисляют расстояние. kNN использует его на этапе классификации, нейронные сети используют его во время обучения, а k-means использует его на этапе кластеризации.

Метрика расстояния - один из основных вычислительных блоков, которые используются повсюду в мире машинного обучения. В течение определенного периода времени разные математики придумывали разные метрики со своими достоинствами и недостатками.

Расстояние говорит нам, насколько далеки наши предположения от желаемого ответа

Различные грани расстояния

Мера сходства - это мера того, насколько похожи два объекта данных. Сходство субъективно и сильно зависит от домена и приложения. Например, два плода похожи по цвету, размеру или вкусу. В зависимости от того, какой размер вы выберете (цвет или размер), вы придете к разным выводам. По размеру яблоко похоже на апельсин, а по цвету яблоко похоже на вишню.

Однако это математические формулы и требуют математических вводных данных. Итак, в конце концов мы конвертируем нашу задачу в набор точек, а затем, чтобы найти сходство между ними, мы вычисляем расстояние между ними.

Существует множество показателей для расчета расстояния между двумя точками (x1, y1) и (x2, y2) в плоскости xy. Некоторые из них - это евклидово расстояние, или расстояние Чебышева, или манхэттенское расстояние и т. Д. Каждая из них отличается от других. Посмотрим, как это сделать.

Евклидово расстояние

Когда учитель средней школы просит учеников найти расстояние между двумя точками, они имеют в виду евклидово расстояние.

Евклидово расстояние - это кратчайшее расстояние между двумя точками в N-мерном пространстве, также известном как евклидово пространство. N = 2 образует плоскость. Он используется в качестве общей метрики для измерения сходства между двумя точками данных и используется в различных областях, таких как геометрия, интеллектуальный анализ данных, глубокое обучение и т. Д.

Она также известна как евклидова норма, евклидова метрика, норма L2, метрика L2 и метрика Пифагора.

  1. Кластерный анализ: этот показатель обычно используется в алгоритмах кластеризации, таких как K-среднее.
  2. Наука о данных: используется для измерения сходства между двумя точками данных.

Манхэттен Расстояние

Мы используем Manhattan Distance, если нам нужно вычислить расстояние между двумя точками данных в сетке, подобной пути. Расстояние Манхэттена также известно как Геометрия такси, Расстояние до городских кварталов, Норма L1 и т. Д. Оно широко используется в таких областях, как регрессионный анализ и частотное распределение. Его представил Герман Минковский.

Из-за того, что путь похож на сетку, между двумя точками может быть много путей, равных манхэттенскому расстоянию. Формула для Манхэттенского расстояния: | x2 – x1 | + | y2-y1 | который можно рассматривать как длину пути, который необходимо пройти в виде сетки. Полоски - это математический символ, представляющий абсолютное значение числа.

Итак | -1 | = 1 и | 1 | = 1.

  1. Сжатое зондирование: при решении недостаточно определенной системы линейных уравнений член регуляризации для вектора параметров выражается через манхэттенское расстояние.
  2. В некоторых приложениях машинного обучения важно различать элементы, которые в точности равны нулю, и элементы, которые малы, но отличны от нуля. В этих случаях мы обращаемся к функции, которая растет с одинаковой скоростью во всех местах, но сохраняет математическую простоту: норме L1.

Чебышев Расстояние

Расстояние Чебышева - это максимальное абсолютное расстояние в одном измерении двух N размерных точек. Лучше всего это пояснить на примере

  • Шахматы: минимальное количество ходов, необходимое королю, чтобы перейти с одного поля на шахматной доске на другое, равно расстоянию Чебышева между центрами квадратов.
  • Складская логистика. Расстояние Чебышева иногда используется в складской логистике, поскольку оно эффективно измеряет время, необходимое мостовому крану для перемещения объекта.

Косинусное расстояние

Косинусное расстояние - это угол между двумя линиями. Эти линии проводятся от начала координат к интересующим нас точкам. Это расстояние широко используется в НЛП, например. для измерения угла между двумя документами. Этот конкретный показатель используется, когда величина между векторами не имеет значения, а имеет значение ориентация.

Независимо от функции расстояния важно понимать, когда и где применять каждую из них. Существует еще много широко используемых функций. Мы постараемся осветить их в следующих статьях.

X8 стремится организовать и построить сообщество ИИ, которое не только имеет открытый исходный код, но и рассматривает его этические и политические аспекты. Следуют и другие упрощенные концепции искусственного интеллекта, основанные на экспериментах. Если вам понравилось это, или у вас есть отзывы или дополнительные вопросы, хлопайте в ладоши и комментируйте ниже.

Спасибо за чтение!