В машинном обучении мы используем матрицы/тензоры в качестве основных единиц представления.

  • Векторы
  • Матрицы
  • Тензоры

Некоторые примеры

  • Изображений
  • Звук
  • Набор данных
  • Что угодно практически..

Две причины использовать нормы

  1. Оцените «насколько велик» тензор (длина)

💡Для скаляров мы можем представить их длину одним числом (скалярным абсолютным значением). Нам это нравится, потому что это просто, поэтому мы хотели бы измерять матрицы и тензоры одинаково, с одним числом. Вот что делает норма. Мы хотим сопоставить тензор X со скаляром с помощью функции

2. Оценить «насколько близко» один тензор к другому

Мы делаем это, спрашивая «насколько велика разница между двумя тензорами», создавая другой вектор, идущий от A к B. Размер этого нового вектора — это разница

Итак, помните, мы используем тензоры в качестве базового представления данных (звук, изображения и т. д.). Итак, с идеей нормы мы можем спросить: «насколько близок этот звук А к этому звуку Б», «насколько близок этот образ кота А к этому образу кота Б?»..

Представление нормы

Извините за плохое качество уравнений. Medium не поддерживает LaTeX. Если кто-нибудь знает, как это сделать, оставьте комментарий.

Нормы — это просто функции, которые отображают тензор в скаляр. Мы могли бы создать свою собственную функцию нормы, но, к счастью, в этом нет необходимости, есть несколько стандартных функций. но прежде чем мы увидим, что нам нужно понять, каким правилам должна удовлетворять функция нормы, чтобы считаться «нормой»

  1. f(x) = 0, если x = 0, если x нулевой вектор, норма равна 0
  2. f(x + y) ≤ f(x) + f(y) (неравенство треугольника). Норма суммы двух векторов всегда меньше суммы отдельных векторов
  3. (линейность) векторы должны линейно масштабироваться

Часто используемые функции (на векторах)

  1. Евклидова норма (норма L2): это квадратный корень из суммы квадратов (отсюда L2) всех векторов.

2. L1-норма: сумма абсолютных значений всех векторов.

3. P-норма Сумма абсолютных значений, возведенных на p в степень 1/p, где p всегда должно быть ≥ 1

4. Бесконечность-Норма (или максимальная норма — максимальная норма) Получить максимальное абсолютное значение

Для матриц чаще всего используется норма Фробениуса.

  1. Норма Фробениуса Это похоже на евклидову норму, где мы суммируем все компоненты в квадрате, а затем вычисляем квадратный корень из всего этого — помните, мы хотим, чтобы скаляр представлял длину матрицы.

Нормы действительно полезны в машинном обучении, они используются по-разному, включая обработку данных, функции потерь и операции со слоями, поэтому вы должны иметь хотя бы некоторое представление об этом.

Наконец, я рекомендую вам проверить это видео на YouTube, это прояснит многие вопросы, которые могут у вас возникнуть.