Компьютерную программу со склонностью к геноциду мы с моим коллегой Джоном Миллером создали в кабинете Университета Карнеги-Меллон.
Это не входило в наши первоначальные планы. Мы не изучаем расы или войны. Мы пытались понять, как возникают примитивные формы сотрудничества. Для этого мы создали устройства, которые жили в воображаемом обществе, и заставили их играть друг с другом в одну известную игру. Она провоцирует сложное социальное поведение так же эффективно, как банановое пюре привлекает фруктовых мошек.
Игра называется «дилемма заключенного». Существует множество вариантов, но их суть одна: двум преступникам нужно решить, молчать или дать показания. Если оба дают показания, то оба получают серьезный срок. Если же они молчат, то избегают наказания. Но если один выбирает дать показания, а другой молчит, то в более выгодном положении оказывается тот, кто сдал своего напарника.
Эта игра достаточно неопределенная для политической философии, но строгость ее правил подходит для задания компьютерной симуляции. Как инструмент для математического анализа человеческого поведения это эквивалент наклонной плоскости для Галилея или росткам гороха для Менделя.
Присоединитесь ли вы к протесту или будете скромно стоять рядом? Будете ограничивать производство товаров, чтобы держать цены на высоком уровне, или собьете цену, чтобы заполнить весь рынок своими продуктами? Возьмете ли вы всю работу в исследовательской группе на себя или оставите ее другим?
Наша модель была проста. Компьютеры, разработанные для принятия решений и ограниченные в аргументации, играли в эту игру в виртуальном мире снова и снова. Мы были не предвзяты: награждали тех, чья стратегия работала, и наказывали тех, чья провалилась. Успешные стратегии передавались следующему поколению. Так мы в некоторой степени смоделировали культурную эволюцию и присущие ей изменения.
Также мы снабдили компьютеры простейшим языком, чтобы они могли думать на нем, и достаточными ресурсами, чтобы накапливать и использовать опыт. В каждом «поколении» два компьютера сражались друг с другом многократно. Так происходит и в жизни: взаимодействуя, мы постоянно принимаем решения и сталкиваемся с их последствиями. У нас была такая модель мира: два Робинзона Крузо соперничают между собой на необитаемом острове.
Когда мы запускали развитие этих маленьких обществ, то ожидали, что, согласно общему мнению, оптимальной стратегией для решения «дилеммы заключенного» будет принцип «око за око». Компьютер, который играет так, изначально склонен к сотрудничеству, однако мстит каждый раз, когда другой компьютер своим решением наносит ему вред. Око за око — это закон чести: относись к другим хорошо до тех пор, пока они не дадут тебе причину относиться плохо, и умей прощать.
Уже когда мы взглянули на результаты наших симуляций (стратегии в них могли развиваться в произвольном направлении), то увидели нечто совершенно иное. После хаоса на раннем этапе одна машина внезапно превзошла все остальные и захватила этот выдуманный мир на сотни поколений. Потом все так же внезапно рухнуло, и мир погрузился в хаос конфликтов, пока этот цикл не начался снова. Археологи подобного мира сделали бы вывод об эпохах процветания и кратких периодах упадка.
Вместо осмотрительного поведения и поступательного развития, которые понятны нам, в нашей модели общества начало происходить что-то бессмысленное и странное. Однажды вечером мы составили графики и поняли, в чем дело. Взяв за основу поведение игроков, машины-лидеры создали некое правило, с помощью которого они научились распознавать, копирует ли другой компьютер их действия.
Поначалу компьютеры давали другой машине определенный паттерн (например,«сотрудничество, отказ, отказ, сотрудничество, отказ, сотрудничество»). Если их оппонент ответил сотрудничеством на сотрудничество и отказом на отказ, то компьютеры переключались в режим постоянного сотрудничества. Так оба компьютера получали выгоду.
Горе тем, кто не понял, как это работает. За любое отклонение от ожидаемой последовательности ответов оппоненту объявлялась тотальная война. Такая реакция похожа на атаку цифрового террориста-смертника: она приводила к уничтожению обоих машин.
Так как последовательность ответов слишком сложно обнаружить случайно, потомки главенствующих машин — единственные, кто получал выгоду от бескорыстного сотрудничества в дальнейшем. Все остальные уничтожались, включая тех, кто использовал стратегию «око за око». Так продолжалось до тех пор, пока не накапливалось достаточно ошибок в правилах предыдущего поколения.
Из-за ошибок в правилах одна главенствующая машина больше не могла распознать другую. Они стали уничтожать друг друга так же, как делали это раньше с машинами-чужаками. Все это напоминает аутоиммунное заболевание в масштабах популяции.
Пока правила работали, мы обозначали их как «шибболеты» по названию племенного геноцида, упомянутого в Ветхом Завете (Книга Судей Израилевых):
И перехватили Галаадитяне переправу чрез Иордан от Ефремлян, и когда кто из уцелевших Ефремлян говорил: «Позвольте мне переправиться», то жители Галаадские говорили ему: «Не Ефремлянин ли ты?» Он говорил: «Нет». Они говорили ему: «Скажи “шибболет”», а он говорил: «Сибболет», и не мог иначе выговорить. Тогда они, взяв его, заколали у переправы чрез Иордан. И пало в то время из Ефремлян сорок две тысячи.
Шибболеты — распространенное явление в человеческой культуре вообще и в конфликтах в частности. Во время Гражданской войны в Финляндии тех, кто не мог верно произнести «yksi» («один»), определяли как русских. Туристы в центре Манхэттена сразу же выдают себя, если произносят название улицы Хаустон-стрит как Хьюстон — город в Техасе (в английском языке эти слова пишутся одинаково — прим. Newочём).
В нашем случае компьютеры использовали шибболеты для контроля за населением настолько эффективно, что неугодные выжить не могли. Даже после завершения эры прах наследовали не кто иные, как их потомки. Слепая рука эволюции нашла простое, хотя и чрезвычайно жестокое решение.
Социальная обстановка была неблагоприятной. Мы снабдили компьютеры ограниченным количеством ресурсов для решения задачи. Как два полностью беспристрастных механизма ведут себя во время конфликта, если каждый из них осознает факт беспристрастности другого? По своей природе два рациональных существа, столкнувшись с одной и той же проблемой, будут действовать одинаково. Учитывая это, каждый из них решит сотрудничать, но отнюдь не из альтруистических побуждений. Каждый из компьютеров понимает, что если он выберет обман, то же сделает и другой. И пострадают оба.
Все многообразие можно ограничить двумя полюсами. На одном из них стоят наши компьютеры для минимальных вычислений. Они выступают как исходные пункты для развития культуры, которая, как выяснилось, в конечном счете сводится к жестокому трайбализму (замкнутость и враждебность группы по отношению к окружающим — прим. Newочём). На другом полюсе находится неизбежное взаимодействие абсолютно здравомыслящих участников.
Если люди крайне рассудительны или, по крайней мере, находятся на пути к этому, то есть повод для оптимизма. Возможно, Фрэнсис Фукуяма думал так же, когда в 1992 году публиковал свою теорию о конце истории. И хотя истоки доводов Фукуямы можно найти в работах немецких философов 19 века вроде Фридриха Ницше и Георга Вильгельма Фридриха Гегеля, мы сформулируем их так: «Достаточно сложная модель человеческой жизни окончится в рациональном, либерально-демократическом и капиталистическом строе, который будет противостоять отдельным группам врагов».
В своих рассуждениях Фукуяма опирался не только на философские размышления, но и на анализ актуальных событий: падение коммунистического режима, развитие радио и телевидения, открытие границ и стремительное повышение уровня цен на бирже.
Сегодня сочинение Фукуямы выглядит как памятник мечтам предыдущего поколения (одна из глав книги называлась «Победа видеомагнитофона»). Сейчас культуры развиваются, но гармонии в этом, кажется, нет. Хаос 21 века очень напоминает это искусственное моделирование. Спустя два десятилетия после терактов 11 сентября даже западные либеральные демократии готовы рассмотреть негативные модели человеческого поведения и учесть намного более пессимистичные, чем Фукуяма.
Один из этих ученых — Карл Шмитт. Он считал, что элемент обсуждения в демократии — лишь прикрытие для более авторитарных форм правления. Похоже мыслит и Роберт Майклс. В своих работах по политическому неравенству он рассматривает демократию как временный этап эволюции общества, которая приведет к правлению небольшой элитарной группы людей.
Интеллектуалы разных политических взглядов все яснее видят, что сама возможность рационального политического порядка — это фантазия. Шибболеты начинают выполнять свои обязанности, чтобы определять расовые, национальные и религиозные ограничения, поэтому снова становятся неустранимыми чертами политической жизни.
Между этими взглядами, равно как и между соответствующими компьютерными симуляциями, лежит непреодолимая пропасть. Искусственные модели примитивны, жестоки и далеки от рациональности. Эти агенты созданы мной и Джоном Миллером как настроенные на сотрудничество рационалисты, которые, по мнению Фукуямы, ждут нас в конце истории. Как бы то ни было, эти модели внушают оптимизм.
Ученые, связанные с Институтом по изучению машинного интеллекта (Machine Intelligence Research Institute — MIRI) в Беркли, исследовали поведение рациональных, но ограниченных в ресурсах моделей, способных прочесть исходный код друг друга.
На первый взгляд, подобная прозрачность должна разрешить вопрос сотрудничества: если я могу предсказать поведение оппонента на основе его исходного кода, вероятно, я решу, что жульничество не оправдывает себя. Но что, если код моего противника сможет спрогнозировать мою симуляцию, мое поведение и попытается воспользоваться этим знанием? Без идеально симметричной рациональности эта проблема ведет к крайним искажениям мысли.
Некоторые модели «бестиария» MIRI могут напомнить ваших знакомых. К примеру, бот-кооператор (CliqueBot) просто сотрудничает со всеми, кто наделен тем же исходным кодом. Его доверия заслуживают лишь те, чей код слово в слово совпадает с его программой. Напротив, бот-беспристрастность (FairBot) игнорирует внешние различия и смотрит глубже, чтобы убедиться в готовности оппонента к сотрудничеству. Он считает так: «Если я докажу, что противник будет сотрудничать со мной, то я тоже буду».
Как же эти машины ладят друг с другом? В то время как полноценное решение представляет собой парадокс регресса, исследования по прогнозированию машинного поведения в дилемме заключенного несколько утешают. Оказывается, что что сотрудничество хотя бы возможно, даже среди ограниченных в ресурсах игроков.
Например, бот-беспристрастность распознает других таких ботов, даже если их исходный код отличается, поэтому разнообразие и кооперация достижимы, по крайней мере, если интеллект достаточно высок.
Даже склонные к геноциду модели крайнего полюса жестокости могут обнадежить. Они появились из глубин микросхемы и были смоделированы на сверхмощном компьютере в Техасе. У них не было биологического оправдания. Возможно, и нам не стоит искать оправданий.
Если поведение настолько всеобще, что отразилось и на компьютерных симуляциях, то нам стоит не бояться и идеализировать, а «лечить» его, как мы поступаем с онкологией или гриппом.
Что если мы воспринимали бы трайбализм как естественный сбой любой когнитивной системы, кремниевой или углеродной? Воспринимали бы в качестве универсальной истины или неизбежного греха, а как нечто преодолимое?
Саймон ДеДео — доцент Университета Карнеги Меллона, где он возглавляет Лабораторию общественного мнения, и внештатный профессор Института Санта-Фе.
Автор благодарит Институт имени Алана Тьюринга за оказанное гостеприимство летом, когда была написана эта статья.
Оригинал: Nautilus.
Автор: Саймон ДеДео.
Переводили: Варвара Васильева, Вероника Чупрова, Анна Василенко.
Редактировал: Сергей Разумов.