- Преодоление катастрофического забывания с помощью мягкого сокращения параметров (arXiv)
Автор: Цзянь Пэн, Цзян Хао, Чжо Ли, Энцян Го, Сяохун Ван, Дэн Минь, Цин Чжу, Хайфэн Ли.
Аннотация: Катастрофическое забывание — это проблема непрерывного обучения, когда глубокая нейронная сеть забывает знания, полученные в предыдущей задаче, после обучения на последующих задачах. Однако существующие методы пытаются найти совместное распределение параметров, общее для всех задач. Эта идея может быть сомнительной, потому что это совместное распределение может отсутствовать при увеличении количества задач. С другой стороны, это также приводит к проблеме с долговременной памятью, когда пропускная способность сети ограничена, поскольку добавление задач съедает пропускную способность сети. В этой статье мы предложили стратегию мягкого сокращения параметров (SPP) для достижения компромисса между краткосрочной и долгосрочной прибылью модели обучения путем освобождения этих параметров, менее способствующих запоминанию прежних знаний предметной области для изучения будущих задач. и сохранение воспоминаний о предыдущих задачах с помощью этих параметров, в то же время эффективно кодирующих знания о задачах. SPP также измеряет важность параметров по информационной энтропии без использования меток. Эксперименты на нескольких задачах показывают, что модель SPP достигла наилучшей производительности по сравнению с другими современными методами. Результаты эксперимента также показывают, что наш метод менее чувствителен к гиперпараметрам и лучше обобщается. Наше исследование показывает, что более мягкая стратегия, то есть приблизительная оптимизация или субоптимальное решение, поможет облегчить дилемму памяти. Исходные коды доступны по адресу https://github.com/lehaifeng/Learning_by_memory.
2. Сокращение параметров без данных для глубоких нейронных сетей (arXiv)
Автор: Сурадж Шринивас, Р. Венкатеш Бабу
Аннотация: Глубокие нейронные сети (НС) с миллионами параметров сегодня лежат в основе многих современных систем компьютерного зрения. Однако недавние работы показали, что гораздо меньшие модели могут достигать аналогичного уровня производительности. В этой работе мы решаем проблему сокращения параметров в обученной модели NN. Вместо удаления отдельных весов по одному, как это делалось в предыдущих работах, мы удаляем по одному нейрону за раз. Мы показываем, насколько похожие нейроны избыточны, и предлагаем систематический способ их удаления. Наши эксперименты по сокращению плотно связанных слоев показывают, что мы можем удалить до 85% всех параметров в сети, обученной MNIST, и около 35% для AlexNet без существенного влияния на производительность. Наш метод можно применять поверх большинства сетей с полносвязным слоем, чтобы получить сеть меньшего размера.