Искусственный интеллект (ИИ) добился значительного прогресса в последние годы, стимулируя инновации в области обработки изображений и естественного языка. Недавняя работа под названием Проклятие рекурсии: обучение на сгенерированных данных заставляет забыть о моделях предлагает предупреждение о проблеме с этими моделями, которая присуща их созданию. Концепция коллапса модели исследуется в статье Ильи Шумайлова, Захара Шумайлова, Ирен Чжао, Ярин Гал, Николаса Паперно и Росса Андерсона. Коллапс модели — это явление, при котором генеративные модели, обученные на сгенерированных данных, теряют способность генерировать разнообразные выходные данные и вместо этого выдают повторяющиеся или непонятные результаты.
Понимание свертывания модели
Чтобы продемонстрировать возникновение коллапса модели, авторы провели эксперименты с использованием языковых моделей, обученных на наборе данных Wikitext-2 — коллекции из более чем 2 миллионов слов из англоязычных статей Википедии, широко используемой для обучения и оценки языковых моделей и служащей стандартным справочником для оценки возможностей этих моделей. Один эксперимент включал обучение модели в течение пяти эпох (количество раз обучения языковой модели) без включения каких-либо исходных данных. Затем эффективность модели оценивалась с помощью недоумения — показателя того, насколько хорошо она предсказывает следующее слово в последовательности. Было обнаружено, что модель адаптировалась к основной задаче после обучения с использованием созданных данных, но это привело к снижению производительности и увеличению недоумения с 20 до 28 баллов.
В другом эксперименте исходный набор данных использовался для обучения модели в течение десяти эпох, при этом 10% точек данных выбирались случайным образом для каждого последующего поколения обучения. У созданных данных были значительно более длинные хвосты, что предполагало, что исходная модель никогда не сгенерировала бы некоторые данные. Трудность, наблюдаемая почти во всех моделях генерации текста, заключалась в значительном количестве повторяющихся слов в сгенерированных данных.