В мире была обработка объектов, классификация и предсказание по изображениям, программирование на естественном языке было далеко позади. Существуют различные типы нейронных сетей, когда вы работаете с изображениями, мы обычно работаем с CNN (Сверточная нейронная сеть), которая предназначена в основном для имитации того, как человеческий мозг обрабатывает зрение. А с 2012 года NN(Neural Networks) действительно хорошо решают задачи Vision.
Пока Трансформеры не решили проблему с текстом, мы использовали RNN (рекуррентную нейронную сеть).
Работа RNN: перевод с английского на французский. RNN принимала на вход английское предложение, обрабатывала слова по одному Последовательно и выдавала результат на французском языке.
Проблемы:
1. Они никогда не справлялись с обработкой больших последовательностей текстов, таких как абзацы или эссе.
2. Очень медленно обучались, не могли использовать больше графических процессоров для ускорения процесса.
Трансформеры:На помощь!
Трансформеры были представлены в 2017 году командой Google Brain и изначально предназначались для перевода. В отличие от RNN, вы могли распараллелить свою работу, а это означало, что при наличии подходящего оборудования вы могли обучать большие наборы данных.
Факт: GPT-3 был обучен на 45 ТБ текстовых данных.
Трансформеры: объедините модель, которая действительно хорошо масштабируется, с огромным набором данных, и результаты, вероятно, поразят вас.
Как на самом деле работают трансформеры?
Подойдя к самому важному моменту, он работает!
Есть 2 основных новшества, благодаря которым эта модель работает так хорошо:
- Позиционные кодировки.
- Самостоятельное внимание.
Позиционное кодирование:
Присвоение числового значения каждому слову в предложении.
Мы храним информацию о порядке слов в предложении и сами данные, а не структуру сети. Затем, когда вы обучаете сеть на большом количестве текстовых данных, она учится интерпретировать эти позиционные кодировки.
Таким образом, НС узнает о важности порядка слов из данных.
Самостоятельное внимание:
Это позволяет NN понимать слово в контексте окружающих его слов.
Этот слой скажет модели обращать особое внимание на определенные слова в предложении, которое вы ему передали (и более или менее игнорировать другие) при работе с представлением каждого слова.
Та же концепция применима к любой задаче, связанной с естественным языком: слово само по себе имеет значение, но это значение сильно зависит от контекста, которым может быть любое другое слово (или слова) до или после изучаемого слова.
Чем на самом деле полезны трансформеры?
Одна из самых известных моделей Transformer называется BERT, она была изобретена примерно в 2018 году. Ее можно использовать для нескольких вариантов использования, таких как:
- Обобщение текста.
- Ответ на вопрос.
- Классификация.
- Генерация текста.
Источник: Облачные технологии Google.