Существует более 5 широко используемых дистанционных функций.
Измерение сходства между двумя объектами вычисляется с помощью математических формул, называемых функциями расстояния.
Почти все алгоритмы машинного обучения в течение своей жизни вычисляют расстояние. kNN использует его на этапе классификации, нейронные сети используют его во время обучения, а k-means использует его на этапе кластеризации.
Метрика расстояния - один из основных вычислительных блоков, которые используются повсюду в мире машинного обучения. В течение определенного периода времени разные математики придумывали разные метрики со своими достоинствами и недостатками.
Расстояние говорит нам, насколько далеки наши предположения от желаемого ответа
Различные грани расстояния
Мера сходства - это мера того, насколько похожи два объекта данных. Сходство субъективно и сильно зависит от домена и приложения. Например, два плода похожи по цвету, размеру или вкусу. В зависимости от того, какой размер вы выберете (цвет или размер), вы придете к разным выводам. По размеру яблоко похоже на апельсин, а по цвету яблоко похоже на вишню.
Однако это математические формулы и требуют математических вводных данных. Итак, в конце концов мы конвертируем нашу задачу в набор точек, а затем, чтобы найти сходство между ними, мы вычисляем расстояние между ними.
Существует множество показателей для расчета расстояния между двумя точками (x1, y1) и (x2, y2) в плоскости xy. Некоторые из них - это евклидово расстояние, или расстояние Чебышева, или манхэттенское расстояние и т. Д. Каждая из них отличается от других. Посмотрим, как это сделать.
Евклидово расстояние
Когда учитель средней школы просит учеников найти расстояние между двумя точками, они имеют в виду евклидово расстояние.
Евклидово расстояние - это кратчайшее расстояние между двумя точками в N-мерном пространстве, также известном как евклидово пространство. N = 2 образует плоскость. Он используется в качестве общей метрики для измерения сходства между двумя точками данных и используется в различных областях, таких как геометрия, интеллектуальный анализ данных, глубокое обучение и т. Д.
Она также известна как евклидова норма, евклидова метрика, норма L2, метрика L2 и метрика Пифагора.
- Кластерный анализ: этот показатель обычно используется в алгоритмах кластеризации, таких как K-среднее.
- Наука о данных: используется для измерения сходства между двумя точками данных.
Манхэттен Расстояние
Мы используем Manhattan Distance, если нам нужно вычислить расстояние между двумя точками данных в сетке, подобной пути. Расстояние Манхэттена также известно как Геометрия такси, Расстояние до городских кварталов, Норма L1 и т. Д. Оно широко используется в таких областях, как регрессионный анализ и частотное распределение. Его представил Герман Минковский.
Из-за того, что путь похож на сетку, между двумя точками может быть много путей, равных манхэттенскому расстоянию. Формула для Манхэттенского расстояния: | x2 – x1 | + | y2-y1 | который можно рассматривать как длину пути, который необходимо пройти в виде сетки. Полоски - это математический символ, представляющий абсолютное значение числа.
Итак | -1 | = 1 и | 1 | = 1.
- Сжатое зондирование: при решении недостаточно определенной системы линейных уравнений член регуляризации для вектора параметров выражается через манхэттенское расстояние.
- В некоторых приложениях машинного обучения важно различать элементы, которые в точности равны нулю, и элементы, которые малы, но отличны от нуля. В этих случаях мы обращаемся к функции, которая растет с одинаковой скоростью во всех местах, но сохраняет математическую простоту: норме L1.
Чебышев Расстояние
Расстояние Чебышева - это максимальное абсолютное расстояние в одном измерении двух N размерных точек. Лучше всего это пояснить на примере
- Шахматы: минимальное количество ходов, необходимое королю, чтобы перейти с одного поля на шахматной доске на другое, равно расстоянию Чебышева между центрами квадратов.
- Складская логистика. Расстояние Чебышева иногда используется в складской логистике, поскольку оно эффективно измеряет время, необходимое мостовому крану для перемещения объекта.
Косинусное расстояние
Косинусное расстояние - это угол между двумя линиями. Эти линии проводятся от начала координат к интересующим нас точкам. Это расстояние широко используется в НЛП, например. для измерения угла между двумя документами. Этот конкретный показатель используется, когда величина между векторами не имеет значения, а имеет значение ориентация.
Независимо от функции расстояния важно понимать, когда и где применять каждую из них. Существует еще много широко используемых функций. Мы постараемся осветить их в следующих статьях.
X8 стремится организовать и построить сообщество ИИ, которое не только имеет открытый исходный код, но и рассматривает его этические и политические аспекты. Следуют и другие упрощенные концепции искусственного интеллекта, основанные на экспериментах. Если вам понравилось это, или у вас есть отзывы или дополнительные вопросы, хлопайте в ладоши и комментируйте ниже.
Спасибо за чтение!