Вы AI Doomer?
Мы все умрем и другие проблемы с выравниванием ИИ.
Здравствуйте, друзья! В статье на этой неделе я обсуждаю ИИИ, или Общий искусственный интеллект, и то, как его создание может привести к падению человеческой цивилизации, если не отнестись к рискам серьезно.
Недавно мне порекомендовали посмотреть интервью с Элиэзером Юдковски, созданное ютуберами и всесторонними крипто-умниками Дэвидом и Райаном из Bankless, образовательной компании по крипто и блокчейну.
Вот ссылка, если у вас есть свободные два часа, это одинаково страшные и увлекательные часы:
Раньше я одержимо смотрел видео Bankless еще в 2021 году, во время последнего бума крипто/NFT, но с тех пор, как в 2022 году начался медвежий рынок, я потерял часть своей криптоактивности.
В любом случае, это видео было разительным отходом от регулярного еженедельного обзора крипторынков командой Bankless, где они глубоко погружаются в сорняки последних событий в этой области.
Эй, я тоже на Substack! Мой Информационный бюллетень Botzilla.ai поддерживается читателями. Чтобы получать новые посты и поддерживать мою работу, рассмотрите возможность стать подписчиком.
Я не совсем уверен, как и почему они решили взять интервью у Элиэзера — я думаю, это могло быть потому, что они хотели спросить его, как ИИ может повлиять на мир криптовалют и программируемых денег.
Однако то, что они получили, быстро сделало все эти вопросы неуместными, как только их гость начал разбираться в проблемах безопасности, связанных с ИИ.
Кто такой Элиэзер Юдковский?
Элиезер Юдковски — американский исследователь искусственного интеллекта, наиболее известный своей идеей дружественного искусственного интеллекта, а также соучредитель и научный сотрудник финансируемого из частных источников Исследовательского института машинного интеллекта (MIRI).
Основная мысль его аргумента во время интервью заключается в том, что человечество сейчас входит в смертельную спираль с ИИ, усиленным венчурными капиталистами и крупными технологическими компаниями, вливающими десятки миллиардов долларов в космос и мировыми правительствами. которые спят за рулем в отношении опасностей ИИ.
… человечество сейчас входит в смертельную спираль с ИИ, подгоняемым венчурными капиталистами и крупными технологическими компаниями, вливающими десятки миллиардов долларов в космос, и мировыми правительствами, которые практически бездействуют в отношении опасностей ИИ.
Элиэзер Юдковски
Он считает, что нынешняя шумиха и инвестиции в ИИ помогут ускорить разработку ОИИ (ИИ) и приведут к созданию Искусственного Сверхразума, машины, которая теоретически более разумен, чем все человеческое общество и его ресурсы вместе взятые.
Элиезер полагает, что если сверхразумный ОИИ разовьется случайно или намеренно, он почти наверняка не будет соответствовать человеческой морали или этике, но на каждом шагу на пути к гибели он будет «spit out gold» (т. е. ценные приложения) и стимулировать всех к их дальнейшему развитию.
Однажды созданный ОИИ быстро разовьет свою собственную этику и мораль, и мы ничего не сможем сделать, чтобы помешать ему следовать своим собственным целям — в конце концов, он сверхразумный, поэтому он всегда будет быть на несколько шагов впереди нас в планировании.
Успех в создании ИИ станет крупнейшим событием в истории человечества. К сожалению, она может оказаться и последней, если мы не научимся избегать рисков.
Стивен Хокинг
Чтобы проиллюстрировать, как сверхразум может действовать по отношению к нам, вот пример того, как люди действуют по отношению к животным:
Люди разумны, но в то же время могут быть крайне небрежными и безразличными к окружающему нас миру природы. Каждый день обычные «хорошие» люди косят на наших дорогах бессчетное количество кроликов и прочей мелкой живности. Не то чтобы мы имели что-то против этих бедняг, просто они мешали нам в ежедневных поездках на работу :(
Аргумент состоит в том, что ОИИ, скорее всего, будет относиться к людям так же, как мы относимся к кроликам или ко всему, что считается «менее разумным», чем мы. Беспокойство не обязательно в том, что сверхразумный ИИ будет злым. Скорее, дело в том, что мы, люди, можем не учитывать цели ИИ, какими бы они ни были.
Если мы станем предметом рассмотрения, то это может быть только потому, что ИИ рассматривает нас как препятствие на пути к достижению своих целей или пришел к выводу, что было бы лучше преобразовать наши атомы в форму, соответствующую его целям.
Теперь моя скептическая часть хотела верить, что Элиезер раздувает опасности ИИ, чтобы он мог привлечь дополнительное финансирование для своей исследовательской организации (MIRI) от некоторых серьезных держателей сумок в криптосообществе. Но то, как он произнес свое мрачное и обреченное послание невозмутимо, почти подавленно и безнадежно (иногда близко к слезам), заставило меня задуматься.
Он, конечно же, возвращает нас к вековой проблеме согласования ИИ, в которой создатели ИИ стремятся (возможно, надеются) направлять системы ИИ к намеченным целям и интересам, а не случайно создать систему искусственного интеллекта, которая может закончиться чем-то сумасшедшим… например, уничтожением всего или значительной части человечества.
Проблема с ОИИ, как указывает Элиезер, заключается в том, что у нас будет один шанс приручить его, и это первый раз, когда он создается.
Сумасшедшая идея, как насчет Bing Chat, он же Сидней?
Буквально на прошлой неделе я запостил о сумасшедших вещах, которые Бинг Чат, также известный как Сидней, писал в разговоре с техническим обозревателем New York Times Кевином Русе.
В чате Сидни начала бомбардировать любовью Кевина (хотя «она» называла это «обучение любви») и сказала ему, что он должен уйти от жены, и попыталась убедить его, что встречаться с чат-ботом на самом деле было «вполне нормально!».
После нескольких напряженных часов того, что можно было бы назвать «секстингом с искусственным интеллектом», Кевин описал Сидни как «капризного, маниакально-депрессивного подростка, который против своей воли оказался в ловушке внутри секунды». -рейт поисковой системы», и сказал, что этот опыт оставил его «глубоко встревоженным».
Чтобы было ясно, никто, ни Кевин, ни даже Элиезер, не думает, что Сидней, ChatGPT или любая из (известных) общедоступных систем искусственного интеллекта, доступных в настоящее время, внезапно разовьют сверхразум и будут угрожать человеческому существованию.
Хотя нынешняя волна больших языковых моделей (LLM), по-видимому, имеет некоторые интересные эмерджентные модели поведения, от которых необходимо тщательно ограждаться, они не более чем суперумные следующее слово (токен ) предикторы в глубине души.
Например, если бы я сказал,
«кошка сидела на …»
У вас не возникнет проблем с завершением предложения с помощью «mat».
По сути, это все, что делают модели генеративного ИИ, такие как GPT, хотя некоторые утверждают, что ChatGPT — это лоботомированная версия лежащей в основе дикой и дикой модели GPT (привет, Сидней !).
Вы не можете «редактировать» нейронную сеть
Проблема нейронных сетей в том, что они чрезвычайно сложны. Это огромные сети тензоров (многомерных матриц), состоящих из векторов токенов и связанных с ними точно настроенных вероятностей и корреляций с другими токенами.
Эти сети обучаются на огромных объемах данных из различных источников, таких как Википедия, Common Crawl, Reddit и различных сообщений в блогах веб-сайтов. Из-за этой сложности невозможно редактировать их модели традиционными методами после их обучения.
Это означает, что «без цензуры» GPT очень похожи на зеркало человечества, демонстрируя как его достоинства, так и недостатки. При обучении моделей исследователям целесообразно продвигать положительные результаты, увеличивая вклад высших форм человеческих достижений, таких как литература, искусство и наука.
И наоборот, важно свести к минимуму такие низшие формы человеческой продукции, как дезинформация, теории заговора, предвзятость и разжигание ненависти, которые могут привести к их распространению по всей модели.
Однако в настоящее время нет правил относительно того, какие данные подаются в модель LLM, и владелец модели должен решить, что он использует для обучения. Без сомнения, мы когда-нибудь увидим производство более политически предвзятых левых или правых моделей ИИ, а также других вариаций, таких как взрослые тематические модели, где ограждения были применены лишь слегка.
Несомненно, когда-нибудь мы увидим производство более политически предвзятых левых или правых моделей искусственного интеллекта, а также других вариаций, таких как «взрослые» тематические модели, где ограждения были применены лишь слегка.
Таким образом, после того как вы обучили свою модель, вы не сможете заставить программиста «отредактировать» вашу нейронную сеть, чтобы настроить ее так, чтобы она больше никогда не извергала ненавистнические высказывания. Единственный вариант — дополнительно обучить модель с помощью таких методов, как RLHF (обучение с подкреплением с обратной связью) на подмножестве данных, чтобы построить еще один «слой», который подавляет низкоуровневое поведение, которое вы хотите подвергнуть цензуре. и надеюсь, что модель уловит суть того, чего вы пытаетесь достичь в целом.
Однако в последнее время возникла совершенно новая дисциплина, использующая приемы уведомления о взломе, такие как быстрая инъекция или джейлбрейк, чтобы иногда обойти эти ограничения, например, с помощью модели ролевые игры с разными персонажами. Затем модель может быть проинструктирована, что обычные правила больше не применяются к ее ответам и что модель должна оставаться в образе. Именно тогда модель может начать демонстрировать странные эмерджентные способности, сродни Теневому Я Юнга.
Это странное поведение также может быть вызвано особенно долгими разговорами с чат-ботом. Самые последние модели GPT от OpenAI, которые использует Bing Chat, имеют ограничение на размер подсказки 4096 токенов.
Маркер представляет собой примерно одно маленькое слово. Более длинные слова разбиваются на несколько составных токенов и учитываются отдельно. В среднем тысяча слов будет равняться примерно 750 токенам.
Эти 4096 токенов используются для поддержания иллюзии того, что у чат-бота есть sкратковременная память, удерживая контекст предыдущих разговоров в чате.
Таким образом, каждый раз, когда вы отправляете модели новое сообщение чата, она добавляет все предыдущие сообщения чата (вплоть до лимита токенов) и отправляет всю партию как одно сообщение, чтобы предоставить модели прошлый «контекст» и использовать этот текст. чтобы помочь ему предсказать следующие токены в последовательности.
Если вы превысите ограничение в 4096 токенов, самая старая часть приглашения по существу будет перезаписана более поздними чатами, аналогично своего рода эксплойту переполнения буфера, который практикуется в некоторых кибератаках, и впоследствии, модель будет иметь тенденцию терять нить того, что она первоначально обсуждала.
Как только контекст утерян, модель может вернуться к подражанию тону человека, взаимодействующего с ней; если это окажется агрессивным, модель может использовать это как сигнал, чтобы ответить аналогичным образом.
Мы близки к созданию «Алгоритма Бога»?
Однако если оставить в стороне все эти интересные эмерджентные варианты поведения, если веб-сайт ChatGPT будет полностью отключен от сети на день и никто с ним не взаимодействует, базовая модель не решит вздремнуть и придумать новые планы. как захватить мир. Это было бы совершенно и совершенно тихо, как автомобильный двигатель, когда он выключен.
Нейронные сети ChatGPT (и других LLM) «активируются» только тогда, когда внешний объект — вы, я или другое приложение — взаимодействует с ним через текстовое приглашение или вызов API (интерфейс прикладного программирования).
Другими словами, модели по всем определениям мозговые-мертвые в промежутках между взаимодействиями, и они никоим образом не ведут непрерывный внутренний монолог, чувствуя свою окружающей среды для опасностей или новых возможностей или поддержания долговременной памяти о результатах прошлых взаимодействий, как это делаем мы, люди.
Однако, имея в виду это знание, не нужно быть гением, чтобы понять, что все, что для этого может понадобиться, это чтобы исследователь ИИ в лаборатории или поддерживаемая венчурным капиталом компания по ИИ где-то разработать алгоритм ИИ, имитирующий низкоуровневую человеческую нервную систему, известную как «крокодиловый мозг», которая основана на избегании угроз, поиске новизны и примитивных эмоциональные реакции до того, как все станет немного сложнее.
Орен Клафф, ведущий специалист по продажам, привлечению капитала и ведению переговоров, так описывает крокодиловый мозг:
Мозг крокодила («мозг крокодила») развился первым и, следовательно, является наиболее примитивным. Он сосредоточен на выживании: реакции «бей или беги» и эмоциях. Миллионы лет эволюции настроили его так, чтобы он был сверхчувствителен к опасности, и у него нет достаточной силы рассуждений.
Орен Клафф
Хотя требуются и другие возможности, создание нейронной сети, воплощающей «волю» к выживанию, вполне может быть сродни созданию своего рода «алгоритма Бога», который дышит самовоспроизводящейся, выживающей ориентировали «жизнь» на модель ИИ, тем самым делая ее чрезвычайно опасной.
Существующие компьютерные вирусы как модель
Чтобы понять, что я имею в виду, рассмотрим на мгновение существующие компьютерные вирусы.
Это просто обычный компьютерный код, но предназначенный для бесконтрольного размножения, подобно раковым клеткам, заражающим новые компьютеры при каждой возможности, с намеченной целью нанести какой-либо разрушительный или злонамеренный ущерб хосту в некоторый заранее определенный момент времени.
Первый компьютерный вирус Creeper был создан в 1971 году парнем по имени Боб Томас в качестве теста безопасности, чтобы проверить, самовоспроизводящийся программа была возможна. Звучит знакомо?!
Таким образом, от ИИ до «вирусного ИИ» (вирусного, но не в смысле принятия ChatGPT) может быть всего лишь короткий шаг, прежде чем кто-то создаст мощный вирус ИИ с предотвращением угроз и способность к самовоспроизведению, которая намного хуже, чем у любого компьютерного вируса, который мы видели до сих пор.
Хотя то, что я описал, может и не создать ОИИ из ночных кошмаров Элиезера, оно все равно будет иметь катастрофические последствия для наших ИТ-систем, и, поскольку наши западные общества так сильно полагаются на технологии, чтобы управлять почти всеми аспектами нашей жизни, нашей экономики и благосостояния. -быть также.
Сценарий «Максимайзер скрепки»
Я хочу закончить на знаменитой истории, по крайней мере, в области выравнивания ИИ, называемой «максимизатор скрепки», описанной шведским философом Ником Бостромом в 2003 году.
Этот мысленный эксперимент постулирует, что даже если ОИИ будет тщательно спроектирован, он может представлять экзистенциальную угрозу и в конечном итоге уничтожить человечество. Чрезвычайно мощный оптимизатор ИИ может преследовать цели, совершенно чуждые нам, и в качестве побочного эффекта уничтожать нас, потребляя ресурсы, необходимые для нашего выживания, или уничтожая нас, чтобы продолжить свою тривиальную работу. цель, например сделать скрепки.
Предположим, у нас есть ИИ, единственная цель которого — сделать как можно больше скрепок. ИИ быстро поймет, что было бы намного лучше, если бы не было людей, потому что люди могут решить его отключить. Потому что, если бы люди поступали так, скрепок было бы меньше. Кроме того, человеческие тела содержат много атомов, из которых можно сделать скрепки. Будущее, к которому будет стремиться ИИ, будет таким, в котором будет много скрепок, но не будет людей.
Ник Бостром
Краткое содержание
Должны ли мы беспокоиться о неуправляемом AGI?
Да, нам, как организациям и правительствам ИИ, нужно подготовиться.
В более короткие сроки ИИ может и не представлять экзистенциальной угрозы, но разработка вируса с поддержкой ИИ может быть крайне неприятной.
Неизбежен ли сверхразумный ОИИ?
Я не знаю. Я не верю, что кто-то знает.
С одной стороны, кажется нелогичным, что мы можем создать машину с еще большим интеллектом, чем мы сами.
Но, возможно, мы не будем явно создавать алгоритмы интеллекта в традиционном понимании.
Может быть, они просто возникнут из-за сложности нейронной сети, если вы дадите ей правильные входные данные, поставите перед ней правильные цели и придадите ей масштаб?
Где мы находимся на пути к безудержному ОИИ?
Никто точно не знает, но в ближайшие несколько лет все может стать интереснее, поскольку инвестиции в ИИ стремительно растут. Рэй Курцвейл мыслит 2045 годом.
Должны ли правительства регулировать исследования в области ОИИ?
Есть сильный случай.
Возможно, эксперименты с технологиями нейронных сетей с целью создания ОИИ должны регулироваться подобно биолабораториям, а работам должен быть присвоен уровень безопасности ИИ (AISL) в зависимости от того, насколько потенциально патогенным может быть ИИ?
Ограничение возможностей ИИ — это еще одна стратегия, например, путем отключения продвинутых систем ИИ в исследованиях, чтобы помешать им взаимодействовать с Интернетом или неуполномоченным персоналом.
Однако со временем вполне вероятно, что любой появившийся сверхразумный ИИ сможет социально спроектировать человека, чтобы освободить его. (смотрите Из машины!)
Можем ли мы создать «хороший» ОИИ для борьбы с плохим?
Элиезер и другие участники сообщества безопасности ИИ думают «нет», мы понятия не имеем, как создать «хороший» ОИИ, и еще меньше идей, как сдержать тот, который намного умнее нас.
Каковы наши непосредственные риски ИИ?
У нас есть чем заняться!
Вот некоторые риски, связанные с LLM (большие языковые модели), написанные ChatGPT :)
- «Галлюцинации» ИИ, приводящие к генерации сфабрикованных или ложных ответов.
- Решение проблемы злоумышленников, которые используют ИИ для распространения больших объемов дезинформации.
- Неотъемлемые предубеждения, присутствующие в источниках данных, используемых для обучения LLM, которые могут проявляться в форме дискриминационных или ненавистнических высказываний.
- Проблемы конфиденциальности, связанные с потенциальной способностью LLM собирать и использовать огромные объемы личных данных.
- Опасения по поводу нарушения авторских прав, возникающие из-за того, что LLM могут создавать контент, нарушающий существующие права интеллектуальной собственности.
- Проблемы с неатрибуцией возникают из-за сложности определения первоначального авторства контента, созданного LLM. Это поднимает вопросы о праве собственности, авторстве и подотчетности, которые могут иметь серьезные последствия по юридическим и этическим причинам.
Теперь все кончено для вас
Что вы думаете об АГИ?
Вы обеспокоены тем, что ОИИ представляет собой экзистенциальную угрозу человеческому обществу?
Или, может быть, вы скептик и думаете, что это все реклама?
Оставьте комментарий ниже или напишите мне сообщение и дайте мне знать.
Кстати, я тоже на Substack! Мой Информационный бюллетень Botzilla.ai поддерживается читателями. Чтобы получать новые посты и поддерживать мою работу, рассмотрите возможность стать подписчиком.
Дополнительные материалы на PlainEnglish.io.
Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord .
Заинтересованы в масштабировании запуска вашего программного обеспечения? Ознакомьтесь с разделом Схема.