Если многие копии Пола сотрудничают для решения проблемы, я ожидаю, что их поведение будет исправимым: каждая копия будет честно стараться помочь группе достичь своей цели, помочь группе заметить и исправить ошибки и т. Д. .
Иногда случайно один экземпляр может вести себя неисправно. Например, один раз в миллион дней меня может поразить непреодолимое желание наблюдать, как горит мир. Повышение надежности - это проблема объединения нескольких, возможно, - исправимых агентов в более корригируемый ансамбль (который хочет разрушать мир только один раз в миллиард дней). Я думаю, что повышение надежности возможно, потому что большая группа достаточно корригируемых агентов вряд ли будет иметь более одного неисправимого члена.
К сожалению, в некоторых ситуациях я могу постоянно вести себя неисправимо. Назовем такую ситуацию «атакой». Например, умный аргумент может убедить копию Пола в том, что он должен саботировать сотрудничество. Если мы представим десять копий Пола одному и тому же аргументу, это не решит проблему, у нас будет просто десять копий, все из которых ведут себя неисправимо.
Усиление безопасности - это проблема объединения множества исправимых агентов в группу, которую труднее атаковать, чем любого человека. Я надеюсь повторить усиление безопасности и в итоге получить безопасную систему.
Этот пост объясняет, почему я думаю, что усиление безопасности возможно.
Параметр
Я буду думать о диалоговых системах, которые общаются по текстовому каналу. «Запрос» - это все, что вы можете задать в интерактивном режиме по текстовому каналу.
В этом контексте исправимое поведение означает сотрудничество с человеком на другом конце разговора - честность, добровольное предоставление полезной информации, следование его инструкциям и т. Д.
«Атака» - это последовательность сообщений, которая заставляет агента прекращать совместную работу.
I. Разрушение
Основная надежда
Большая группа может ответить на большой вопрос, разбив его на менее сложные части. Предположим, у нас есть некоторая формальная мера сложности и мы можем ответить на запрос сложности k, разбив его на части, каждая из которых имеет сложность ‹k,, пока мы не достигнем некоторый набор «основных» запросов сложности k ⁰, которые слишком просты, чтобы их можно было разбить дальше.
Это предлагает путь к усилению безопасности:
- Пусть k ᴬ будет сложностью простейшего возможного нападения на человека.
- Мы надеемся, что k ᴬ ›k ⁰. То есть мы надеемся, что основные вопросы достаточно просты и безопасны.
- Затем, если мы дадим группе какой-либо ввод сложности k ᴬ, он будет разбит на части сложности ‹k ᴬ (которые обязательно безопасны).
- Поэтому сложность простейшей атаки на группу выше, чем сложность простейшей атаки на отдельного человека.
- Если мы повторим этот процесс, создав группу из групп, то простейшая атака будет становиться все более и более сложной, пока в конечном итоге не перестанет существовать атака любого возможного уровня сложности.
Чтобы реализовать эту надежду, нам необходимо:
- определить процедуру разбивки запросов,
- определить соответствующее понятие сложности,
- чтобы утверждать, что все запросы выше некоторой базовой сложности k ⁰ разбиты на строго более простые части,
- чтобы утверждать, что все запросы ниже сложности k ⁰ безопасны,
- утверждать, что группа ведет себя поступательно до тех пор, пока все индивидуумы ведут себя исправно.
1. Мета-исполнение
Метаисполнение потенциально может ответить на запрос Q без необходимости рассматривать что-либо более сложное, чем сам Q.
Я набросал часть примера здесь, чтобы дать некоторое представление о том, как это на самом деле выглядит.
2. Определение сложности
Я начну с представления, что произойдет, если вы попросите меня выбрать запрос наугад.
Под «случайным образом» я представляю себе что-то вроде мягкого универсального распределения относительно Пола: я думаю обо всех возможных стратегиях неактивного зла, которые я мог бы использовать для случайного выбора запросов, а затем выбираю одну из этих стратегии наугад.
Например, моя метастратегия может быть такой: с вероятностью 5% я даю равномерно случайную строку. С вероятностью 2% я думаю о событиях своей жизни и задаю вопрос, относящийся к одному из них. С вероятностью 15% я пытаюсь разбить пространство возможных вопросов на иерархию и подбрасывать монетку на каждом шаге, чтобы решить, какую часть иерархии исследовать. С вероятностью 80% я занимаюсь чем-то другим.
Одна из этих стратегий особенно важна: я мог бы сгенерировать промежуточный случайный запрос Q ', а затем позволить Q быть случайным запросом, возникающим в процессе ответа Q'. Для конкретности скажем, что я использую эту стратегию половину времени.
Пусть µ (Q) - вероятность того, что этот процесс выдаст запрос Q. Мы можем определить сложность запроса Q как k (Q) = −log µ (Q).
Мы также можем использовать µ для измерения сложности распределения η по запросам, позволяя k (Q) быть максимальным значением log (η (Q) / µ (Q)) для любого запроса Q .
Неформально, это журнал «Сколько отсчетов вам нужно взять из µ, чтобы получить один отсчет из η?», То есть сколько битов давления отбора вам нужно, чтобы получить отсчет из η.
(Может быть более полезно рассмотреть ε-гладкую сложность: какова наименьшая сложность любого распределения η ′, которое находится в пределах ε полного расстояния вариации η? Неформально: сколько выборок вам нужно взять из µ, чтобы получить образец ε-близкий к η?)
Примечание. Это определение не может быть правильным, и я надеюсь, что мы сможем улучшить его. Я думаю, что важным ингредиентом является декомпозиция, в которой граф (подвопрос → вопрос) представляет собой небольшой расширитель множества. Если кто-то захочет заняться этим анализом, я думаю, что это важный вопрос, и я надеюсь вернуться к нему в какой-то момент.
3. Можно ли разбить запрос на более простые части?
Предположим, что я начинаю с запроса Q и отделяю подзапрос Q '. Когда мы можем надеяться, что k (Q ′) ‹k (Q)?
Предположим, есть много возможных запросов Q, для которых Q 'появляется как подзапрос. Например, подзапрос «когда произошло [a]?» может появиться в ходе ответа «было ли [] причиной Великой депрессии?», или это могло произойти в ходе ответа «было [a] последствия испанского гриппа? »
Каждый из них соответствует способу выборки Q ′ с помощью µ - поскольку одна из стратегий в µ заключается в генерации случайного запроса, а затем генерации случайного подзапроса.
Итак, µ (Q ′) ›Σµ (Qi) / 2N, где {Qi} - это набор суперкаров, которые приводят к подзапросу Q ′, N - общее количество подзапросов для каждого суперкадра, а 50% - это то, как часто µ решает для выборки случайного подзапроса.
До тех пор, пока каждый возможный суперкарт имеет не более 1 / (2N) полной вероятности при µ - то есть до тех пор, пока вы не можете угадать суперкарт с разумной вероятностью из подзапроса, - мы снизили сложность. Если N равно 16, это требует, чтобы каждый подзапрос выдавал около 5 бит информации об исходном запросе.
На самом деле ситуация лучше:
- На самом деле наши запросы выбираются из некоторого распределения η, а не выбираются детерминированно. По мере увеличения энтропии η множество прообразов {Qi} эффективно увеличивается. (Анализ также становится немного сложнее.)
- µ смешивает стратегии, отличные от (выбрать случайный запрос, затем выбрать случайный подзапрос). Если Q ′ качественно проще, чем Q, то мы можем иметь µ (Q ′) ›µ (Q), даже не учитывая возможность выборки Q ′ как подзапроса Q.
4. Безопасны ли простые запросы?
В чем сложность простейшего нападения на человека без посторонней помощи? Точно так же: сколько запросов мы ожидаем отобрать, прежде чем обнаружим атаку?
Это будет варьироваться от человека к человеку, поэтому для конкретности я буду рассматривать вдумчивого футуриста или исследователя искусственного интеллекта, который был проинформирован обо всех проблемах, которые мы можем придумать.
Если бы мы действительно хотели проверить наличие атак, мы могли бы провести гигантский перебор «простых» атак.
Если представить себе создание запроса каждые 30 секунд в течение 40 часов в неделю в течение года, мы генерируем около 200 000 запросов в год. Если нанять десять человек, мы получаем до 2 миллионов запросов в год. 30 секунд может быть мало, но учтите, что процесс генерации может производить много выборок за один вызов, и нам нужно только проверить возможные атаки.
Если мы приложим небольшое усилие отбора, я подозреваю, что мы обнаружим атаки по крайней мере на 1–3 порядка чаще, чем при случайной выборке.
Таким образом, кажется несложным явно проверить, содержат ли 100 миллионов случайных запросов атаку. Это может быть сделано специальными красными командами и свободно смешано с процессом, используемым для сбора данных обучения. Я подозреваю, что вдумчивый анализ может продвинуть нас еще дальше.
Интуитивно я был бы удивлен, если бы такой обыск оказался нападением на осторожного надзирателя. Если бы он действительно совершил нападения, я подозреваю, что можно было бы усилить надзирателя против них.
В целом, я чувствую себя довольно безопасно, полагаясь на 10⁸ запросов, не содержащих атаки, довольно небезопасно с числами, такими как 10³⁰, и я не уверен, где между атаками может возникнуть проблема.
5. Корригируется ли сотрудничество корректирующих агентов?
Даже если каждый человек ведет себя поступательно, группа не обязана вести себя исправно. Это немного отклоняется от истинной направленности этого поста, который касается устранения нарушений безопасности, присущих человеку. Но это касательный момент, который стоит обсудить вкратце, поскольку я думаю, что это важный открытый вопрос.
Есть два основных источника неисправности (хотя без более четкого представления об оптимизации и исправляемости этот список не является исчерпывающим):
- Группа оказывает давление выбора на шаблоны и модели поведения, распространяющиеся в группе. Эти модели сами могут стать мощными неисправимыми консеквенциалистами.
- Группа реализует неисправимую оптимизацию.
Например, предположим, что метаисполнение задает подвопрос «Чего хочет пользователь?», Получает представление их значений, а затем задает подвопрос « Какое поведение лучше всего в соответствии с этими ценностями? » После этого я случайно произвел неисправимое поведение после того, как предпринял безобидные шаги.
Я думаю, что первая проблема, вероятно, может быть решена путем применения усилений безопасности и надежности, которые действуют как на группы, так и на отдельных лиц. Я думаю, что больше всего здесь не хватает инструментов для анализа (хотя, возможно, когда у нас появятся эти инструменты, мы заметим больше проблем). В настоящее время это кажется мне довольно сложным и запутанным.
Вторая проблема явно требует от человека-оператора чего-то другого, кроме «разумного». То есть, для того, чтобы эта схема могла работать, человеку нужно кое-что понять о том, какой вид оптимизации вызывает неисправность, и человек должен будет избегать действий, которые вызывают проблемную оптимизацию. Вполне возможно, что это может сделать существующий человек, если он параноик, но на самом деле единственная причина, по которой я ожидаю, что все пойдет хорошо, состоит в том, что я ожидаю, что мы добьемся прогресса в теоретическом вопросе понимания неисправимости. Я считаю, что это важная теоретическая проблема.
II. Универсальность
До сих пор я избегал ключевого вопроса: почему мы вообще думаем, что мы можем разбивать задачи?
В самом деле, некоторые человеческие способности нельзя разбить на части. Предположим, что человек видел кучу примеров (x, f (x)), таких как английские фразы и их французские переводы, и изучил прогнозную модель f. Человек не сможет получить доступ к своей модели, кроме как запустив ее, и в этом случае у него нет надежды сломать задачу вычисления f - в данном случае перевод предложения. (Вэй Дай предложил пример перевода.)
Предложение
Я все равно предлагаю продолжить разбивать задачи. Это означает, что мы потеряем определенные способности, если будем применять усиление.
Например, если дана задача «Перевести предложение [x] с французского на английский», мы ответим на него, не заставив переводчика просмотреть все предложение x. Это значит, что качество перевода упадет.
После достаточного количества дополнительных шагов мы можем в конечном итоге прийти к агенту, который вообще не знает французского языка и застрял с рекомендациями типа «Обратитесь к англо-французскому словарю».
По сути, это предложение заменяет нашего первоначального надзирателя-человека обедневшим надзирателем, способным ответить только на миллиард самых распространенных запросов.
Это нормально?
Первый ключевой вопрос - останется ли этот обедневший надзиратель универсальным.
То есть, если мы соберем достаточно копий этого обедневшего надзирателя (итеративно применяя мета-исполнение), сможем ли мы получить произвольно умные группы? Или мы застрянем?
Здесь нам нужно быть осторожными с «произвольно умными». Очевидно, что существуют проблемы, которые группа никогда не сможет решить из-за недостатка знаний / опыта, включая проблемы, которые могут решить отдельные люди.
Это потенциально нормально, если мы изучим хорошую политику использования информации в окружающей среде (включая человеческий опыт). Затем это может быть дистиллировано до состояния, поддерживаемого агентом, которое может быть столь же выразительным, как и любое состояние, которое агент мог бы изучить. Использование внешних фактов требует компромисса между преимуществами и рисками, поэтому мы не устранили проблему, но потенциально изолировали ее от проблемы обучения нашего агента.
Сравнение с агентными фондами
Если обедневший надзиратель универсален, то набор вопросов сложности k ‹k ⁰ образует простое« ядро »для рассуждений: путем создания гигантской справочной таблицы человеческих ответов отвечая на эти вопросы и просто используя эту таблицу поиска достаточно много раз, мы можем произвести произвольно изощренное поведение.
Если люди вообще универсальны, то, конечно, такое ядро существует (просто возьмите все вопросы, которые человек может сформулировать в своей жизни). Но поиск небольшого ядра, похоже, требует лучшего понимания интеллекта.
Я думаю, что создание такого ядра - очень естественная и важная проблема для исследователей, интересующихся философскими проблемами ИИ. Я считаю, что если исследование в стиле MIRI добавляет ценности, то, скорее всего, это будет связано с нахождением явной основы для рассуждений, а не с нахождением явного рецепта для AGI. Затем это ядро будет объединено с повторным усилением, чтобы получить конкурентоспособный ИИ. Однако я не думаю, что такое ядро может закодировать ответ на такие вопросы, как «какую теорию принятия решений использовать?» - вместо этого я ожидаю, что это будет больше похоже на решение метафилософии, автоматизирующее процесс, посредством которого люди отвечают на вопросы такой формы.
При условии, что усиление работает хорошо, я думаю, что с вероятностью 50% он использует явное ядро, которое мы понимаем, и 50% вероятность того, что он использует беспорядочное ядро, полученное от людей.
В дополнение к тому, что анализ усиления будет намного проще, наличие явного ядра рассуждений также потенциально может значительно упростить проверку, как обсуждалось здесь. В целом, я думаю, что такая перспектива может охватить большую часть того, что полезно в представлении MIRI, но при этом будет иметь возможность использовать преимущества современного машинного обучения.