- Надежное понимание естественного языка с помощью больших языковых моделей и программирования наборов ответов (arXiv)
Автор: Абхирамон Раджасекаран, Янкай Зенг, Партх Падалкар, Гопал Гупта.
Аннотация: Люди понимают язык, извлекая информацию (смысл) из предложений, комбинируя ее с существующими знаниями здравого смысла, а затем выполняя рассуждения, чтобы делать выводы. В то время как большие языковые модели (LLM), такие как GPT-3 и ChatGPT, могут использовать шаблоны в тексте для решения различных задач НЛП, они терпят неудачу в задачах, требующих рассуждений. Они также не могут достоверно объяснить ответы, полученные на заданный вопрос. Чтобы лучше подражать людям, мы предлагаем STAR, структуру, которая сочетает LLM с программированием набора ответов (ASP). Мы показываем, как можно использовать LLM для эффективного извлечения знаний, представленных в виде предикатов, из языка. Затем используется целеустремленный ASP, чтобы надежно обосновать это знание. Мы применяем структуру STAR к трем различным задачам NLU, требующим рассуждения: качественное рассуждение, математическое рассуждение и целенаправленный разговор. Наши эксперименты показывают, что STAR способен восполнить пробел в рассуждениях в задачах NLU, что приводит к значительному повышению производительности, особенно для небольших LLM, т. е. LLM с меньшим количеством параметров. Приложения NLU, разработанные с использованием структуры STAR, также объяснимы: наряду с сгенерированными предикатами для заданного вывода может быть создано обоснование в виде дерева доказательств.
2. Что важно в структурированном сокращении генеративных языковых моделей? (архив)
Автор: Майкл Сантакроче, Цысин Вэнь, Елонг Шэнь, Юаньчжи Ли.
Аннотация: Авторегрессионные большие языковые модели, такие как GPT-3, требуют огромных вычислительных ресурсов для использования. Традиционно для сокращения использования ресурсов используются структурированные методы сокращения. Однако их применение и эффективность для генеративных языковых моделей сильно изучены недостаточно. В этой статье мы проводим всестороннюю оценку общих методов структурированного сокращения, включая сокращение величины, случайного и движения на слоях прямой связи в моделях типа GPT. Неожиданно случайное сокращение приводит к производительности, сравнимой с лучшими зарекомендовавшими себя методами, в нескольких задачах генерации естественного языка. Чтобы понять эти результаты, мы предоставляем основу для измерения избыточности на уровне нейронов моделей, сокращенных различными методами, и обнаруживаем, что установленные структурированные методы сокращения не учитывают отличительные особенности нейронов, оставляя после себя избыточную избыточность. Ввиду этого мы вводим Globally Unique Movement (GUM), чтобы повысить уникальность нейронов в усеченных моделях. Затем мы обсудим влияние наших методов на различные показатели избыточности, чтобы объяснить повышение производительности.