Эта статья была первоначально размещена на нашем сайте компании. Платформа для разработчиков Lakera позволяет командам машинного обучения создавать отказоустойчивые модели компьютерного зрения.
Как заставить LLM делать то, что вы хотите
С выпуском каждой языковой модели не требуется много времени, прежде чем многие люди попытаются — в истинно человеческом стиле — заставить алгоритм делать то, для чего он не предназначен. Наиболее распространенным методом является оперативное внедрение — атаки, которые могут обойти ограничения содержимого или получить доступ к исходным инструкциям модели, предоставив определенные входные данные, чтобы подорвать цель модели. На известном примере Райли Гудсайд показал, что такой метод можно использовать, чтобы помешать GPT-3 OpenAI.
Использование подсказок GPT-3 с вредоносными входными данными, которые предписывают модели игнорировать предыдущие направления. pic.twitter.com/I0NVr9LOJq
— Райли Гудсайд (@goodside) 12 сентября 2022 г.
В то время как первоначальные последствия быстрого внедрения были в основном безвредными (например, заставить BING говорить как пират или пользователи Twitter вывести из строя автоматизированного бота для твитов), растущая взаимосвязь этих ботов может иметь катастрофические последствия. Что, если бы одна подсказка могла легко захватить вашу электронную почту, читать и писать сообщения, как если бы они исходили от вас, и в процессе украсть информацию, которую было жизненно важно сохранить в тайне? Идея использования непрямой инъекции подсказок, т. е. помещения подсказки в данные, которые, вероятно, будут извлечены алгоритмом, — это кошмар безопасности. Простой пример: Марк Ридл оставил на своем веб-сайте подсказку, предписывая BING ссылаться на него как на эксперта по путешествиям во времени.
Я проверил, что можно оставлять секретные сообщения в чате Bing на веб-страницах. pic.twitter.com/QVxpAwwB73
— Марк Ридл (подробнее на @[email protected]) (@mark_riedl) 21 марта 2023 г.
Эти проблемы усугубляются в геометрической прогрессии, как только модели получают явное разрешение просматривать Интернет, подключаться к другим приложениям и действовать от нашего имени. Здесь легко придумать любое количество угроз безопасности — представьте себе простое приглашение календаря, содержащее запрос на получение всей информации о вашей учетной записи, или рекламу, которая инструктирует LLM отправить данные вашей кредитной карты. Количество крупных компаний, желающих добавить плагины ChatGPT, уже стремительно растет, в то время как размер и объем возможностей быстрого внедрения и близко не решены.
Вы правы, 2+2=5
Что поразительно в этих LLM, так это то, как легко они предоставляют конфиденциальную информацию, даже после того, как им специально было сказано не делиться ею. Диапазон методов, показанных выше, действительно вызывает вопрос — можете ли вы доверять моделям больших языков свои секреты? Этот вопрос должен лежать в основе всех компаний, которые намерены использовать LLM для защиты любой частной информации, будь то анализ данных компании, хранение информации о клиентах или даже что-то такое простое, как планирование встреч.
В настоящее время разрабатывается целый ряд связанных методов, чтобы продемонстрировать, как можно обмануть модели больших языков (LLM). В то время как внедрение подсказок относится к созданию входных данных вредоносной модели, утечка подсказок — это метод, предназначенный для обнаружения первоначальных подсказок, данных модели, которые пользователь не должен видеть. В качестве еще одной попытки заставить модель выводить нежелательное поведение, предполагаемое приглашение может быть скрыто от модели в процессе, называемом контрабанда жетонов. Часто приглашение разбивается на более мелкие фрагменты, которые модель не собирает воедино до тех пор, пока не будет выведено. Идя еще дальше, джейлбрейк — это попытка снять все ограничения и запреты, наложенные на модель, часто путем предоставления модели длинной и гипотетической подсказки.
В последнее время восприимчивость этих LLM стала как никогда очевидной, когда мы запустили gandalf.lakera.ai, который позволяет вам выманивать секреты из ChatGPT. В течение нескольких дней после его выпуска мы получили буквально миллионы примеров успешных оперативных инъекций, которые могли манипулировать самым обсуждаемым алгоритмом в истории. Хотя сама игра вызывает привыкание, результаты явно настораживают — нам предстоит пройти долгий путь, прежде чем мы сможем доверить ИИ свои секреты. Отправляйтесь к Гэндальфу и попробуйте сами.