В текущем состоянии глубокого обучения методы, которые можно использовать для повышения точности модели, в основном сводятся к увеличению размера модели, размера набора данных или количества шагов обучения. Однако эти методы требуют больших и очень дорогих вычислительных ресурсов. Оптимизация вычислительной эффективности стала ключевой целью исследователей, когда вычислительные ресурсы ограничены. Как добиться более высокой точности при ограниченном аппаратном обеспечении и времени обучения?
Чтобы решить эту проблему, исследователи из лаборатории исследований искусственного интеллекта Беркли (BAIR) в Калифорнийском университете в Беркли изучили влияние размера модели Transformer на эффективность обучения и вывода. В их новом документе показано, что при ограниченных ресурсах эффективность обучения и вывода можно повысить за счет значительного увеличения размера моделей Transformer и их сильного сжатия.
Исследователи провели несколько экспериментов и обнаружили, что в данный момент более глубокая модель RoBERTa (RoBERTa - это оптимизированный подход к предварительному обучению BERT) с большим количеством слоев имела меньшую сложность, чем модель с меньшим количеством слоев. Более широкая модель RoBERTa также вызывала меньшее недоумение.
Исследователи также оценили валидационный балл BLEU для моделей разных размеров при обучении англо-французской модели машинного перевода трансформатора. Оценка BLEU - это показатель автоматической оценки машинного перевода (чем выше, тем лучше). За то же время обучения более глубокие и широкие модели превосходили модели меньшего размера. Исследователи также обнаружили, что увеличение ширины или глубины модели привело к более быстрому обучению для предварительного обучения RoBERTa и что более широкая модель лучше работает в задачах машинного перевода.
Хотя обучение более крупной модели может обеспечить более высокую эффективность, это также увеличивает затраты на вычисления и память для вывода, а общая стоимость вывода намного выше, чем затраты на обучение в большинстве практических приложений. Подход «тренируй сначала, затем сжимай» может решить эту проблему. Исследователи использовали методы сжатия, такие как квантование и отсечение, которые могут уменьшить задержку вывода и требования к памяти.
В случае RoBERTa исследователи сначала предварительно обучили модели RoBERTa разного размера за одно и то же время, затем настроили эти модели для последующей задачи классификации текста и применили методы сокращения или квантования для сжатия. Было обнаружено, что в заданное время тестирования лучше всего работало увеличение размера модели с последующим применением сильного сжатия.
Исследователи провели предварительное расследование своих выводов, ограничиваясь областью обработки естественного языка, и говорят, что их выводы могут быть дополнительно изучены в других областях в будущем.
Статья Тренируй крупно, затем сжимай: переосмысление размера модели для эффективного обучения и вывода преобразователей находится на arXiv.
Автор: Херин Чжао | Редактор: Майкл Саразен
Думаете о том, чтобы внести свой вклад в синхронизированную проверку? Новая колонка Поделитесь моими исследованиями от Synced приглашает ученых поделиться своими научными открытиями с глобальными энтузиастами искусственного интеллекта.
Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.
Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!
Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.