Почему GPT может учиться в контексте? Языковые модели тайно выполняют градиентный спуск как метаоптимизаторы

Статья Почему GPT может учиться в контексте? Языковые модели тайно выполняют градиентный спуск как метаоптимизаторы дает представление о том, как GPT-3 может учиться на нескольких демонстрациях и предсказывать метки для невидимых входных данных.