В машинном обучении мы используем матрицы/тензоры в качестве основных единиц представления.
- Векторы
- Матрицы
- Тензоры
Некоторые примеры
- Изображений
- Звук
- Набор данных
- Что угодно практически..
Две причины использовать нормы
- Оцените «насколько велик» тензор (длина)
💡Для скаляров мы можем представить их длину одним числом (скалярным абсолютным значением). Нам это нравится, потому что это просто, поэтому мы хотели бы измерять матрицы и тензоры одинаково, с одним числом. Вот что делает норма. Мы хотим сопоставить тензор X со скаляром с помощью функции
2. Оценить «насколько близко» один тензор к другому
Мы делаем это, спрашивая «насколько велика разница между двумя тензорами», создавая другой вектор, идущий от A к B. Размер этого нового вектора — это разница
Итак, помните, мы используем тензоры в качестве базового представления данных (звук, изображения и т. д.). Итак, с идеей нормы мы можем спросить: «насколько близок этот звук А к этому звуку Б», «насколько близок этот образ кота А к этому образу кота Б?»..
Представление нормы
Извините за плохое качество уравнений. Medium не поддерживает LaTeX. Если кто-нибудь знает, как это сделать, оставьте комментарий.
Нормы — это просто функции, которые отображают тензор в скаляр. Мы могли бы создать свою собственную функцию нормы, но, к счастью, в этом нет необходимости, есть несколько стандартных функций. но прежде чем мы увидим, что нам нужно понять, каким правилам должна удовлетворять функция нормы, чтобы считаться «нормой»
- f(x) = 0, если x = 0, если x нулевой вектор, норма равна 0
- f(x + y) ≤ f(x) + f(y) (неравенство треугольника). Норма суммы двух векторов всегда меньше суммы отдельных векторов
- (линейность) векторы должны линейно масштабироваться
Часто используемые функции (на векторах)
- Евклидова норма (норма L2): это квадратный корень из суммы квадратов (отсюда L2) всех векторов.
2. L1-норма: сумма абсолютных значений всех векторов.
3. P-норма Сумма абсолютных значений, возведенных на p в степень 1/p, где p всегда должно быть ≥ 1
4. Бесконечность-Норма (или максимальная норма — максимальная норма) Получить максимальное абсолютное значение
Для матриц чаще всего используется норма Фробениуса.
- Норма Фробениуса Это похоже на евклидову норму, где мы суммируем все компоненты в квадрате, а затем вычисляем квадратный корень из всего этого — помните, мы хотим, чтобы скаляр представлял длину матрицы.
Нормы действительно полезны в машинном обучении, они используются по-разному, включая обработку данных, функции потерь и операции со слоями, поэтому вы должны иметь хотя бы некоторое представление об этом.
Наконец, я рекомендую вам проверить это видео на YouTube, это прояснит многие вопросы, которые могут у вас возникнуть.