- Изучение функций Липшица с помощью обученных GD неглубоких сверхпараметризованных нейронных сетей ReLU (arXiv)
Автор : Илья Кузборский, Чаба Шепешвари
Аннотация: мы исследуем способность перепараметризованных неглубоких нейронных сетей ReLU обучаться липшицевым, недифференцируемым, ограниченным функциям с аддитивным шумом при обучении методом градиентного спуска (GD). Чтобы избежать проблемы, заключающейся в том, что в присутствии шума нейронные сети, обученные почти с нулевой ошибкой обучения, несовместимы в этом классе, мы сосредоточимся на GD с ранней остановкой, который позволяет нам демонстрировать согласованность и оптимальные скорости. В частности, мы исследуем эту проблему с точки зрения приближения Neural Tangent Kernel (NTK) обученной GD нейронной сети конечной ширины. Мы показываем, что всякий раз, когда какое-либо правило ранней остановки гарантированно дает оптимальную скорость (избыточного риска) в гильбертовом пространстве ядра, индуцированного функцией активации ReLU, это же правило можно использовать для достижения минимаксной оптимальной скорости обучения на классе рассматриваемых липшицевых функций нейронными сетями. Мы обсудим несколько практических привлекательных правил остановки, не требующих данных и зависящих от данных, которые обеспечивают оптимальные скорости.
2. Вероятностная проверка нейронных сетей ReLU с помощью характеристических функций (arXiv)
Автор: Джошуа Пилиповски, Вигнеш Сиварамакришнан, Мико М.К. Оиси, Панагиотис Циотрас.
Аннотация: Проверка взаимосвязей ввода-вывода нейронной сети для достижения желаемой производительности является сложной, но важной проблемой из-за растущего повсеместного распространения нейронных сетей во многих инженерных приложениях. Мы используем идеи из теории вероятностей в частотной области, чтобы обеспечить гарантии вероятностной проверки для нейронных сетей ReLU. В частности, мы интерпретируем (глубокую) нейронную сеть с прямой связью как дискретную динамическую систему на конечном горизонте, которая формирует распределения начальных состояний, и используем характеристические функции для распространения распределения входных данных по сети. Используя обратное преобразование Фурье, мы получаем соответствующую кумулятивную функцию распределения выходного набора, которую можно использовать для проверки того, работает ли сеть так, как ожидалось, при любой случайной точке из входного набора. Предлагаемый подход не требует, чтобы распределения имели четко определенные моменты или производящие функции моментов. Мы демонстрируем предлагаемый нами подход на двух примерах и сравниваем его эффективность с аналогичными подходами.