Введите Павлова

We use cookies. Read the Privacy and Cookie Policy

Введите Павлова

Перенесемся в Вену. Конец 1980-х годов. Карл Зигмунд, одаренный математик с весьма игривым складом ума, ведет семинар по теории игр. Один из присутствующих студентов, Мартин Новак, тут же решает бросить химию и полностью отдаться изучению данной темы. Зигмунд, приятно удивленный напором своего ученика, ставит перед ним нелегкую задачу: разобраться в дебрях сложностей, окруживших дилемму заключенного после появления стратегии «Око за око». Найдите мне идеальную стратегию в реалистичном мире, предложил Зигмунд.

Новак разработал собственный турнир: он отличался отсутствием какой бы то ни было определенности и был построен на статистике. Стратегии либо совершали случайные ошибки с определенной вероятностью, либо меняли тактики по тому же вероятностному принципу. Система, однако, могла «учиться» или развиваться, сохраняя улучшения и отказываясь от неудачных тактик. Постепенному эволюционному изменению подвергались даже те вероятности, с которыми совершались те или иные действия. Такой новый реализм оказался чрезвычайно полезен, ибо устранил все излишние усложнения. Вместо нескольких стратегий, в равной степени способных выиграть, четкое лидирующее положение занимала одна. И это была не «Око за око», а ее очень близкая родственница — «Великодушная око за око» (которую я для краткости буду называть просто «Великодушной»).

Эта стратегия иногда прощает единичные ошибки. Иными словами, примерно треть всего времени она прощает разовое предательство. Прощение всех единичных предательств — стратегия, известная как «Око за два ока» — подразумевает явную эксплуатацию. А вот прощение время от времени (примерно с 30-процентной вероятностью) оказалось на удивление эффективным: оно помогало разорвать циклы взаимных упреков, не подвергаясь при этом эксплуатации со стороны предателей. В компьютерной популяции игроков «Око за око», совершающих периодические ошибки, «Великодушная» будет распространяться за счет последних. Как это ни парадоксально, «Око за око» фактически, прокладывает дорогу стратегии, более доброй, чем она сама. Это Иоанн Креститель, а не сам Мессия.

Впрочем, и «Великодушная» — тоже не Мессия. Она настолько великодушна, что позволяет распространяться еще более добрым, более наивным стратегиям. Например простая «Всегда сотрудничай» может преуспевать среди «Великодушных» игроков, хотя на самом деле не побеждает их. Но «Всегда сотрудничай» — стратегия фатально великодушная; ее легко побеждает «Всегда предавай», самая непорядочная из всех. В популяции «Великодушных» игроков «Всегда предавай» ни к чему ни приводит. Но стоит кому-то начать использовать «Всегда сотрудничай», как она наносит удар. Так, вместо счастливого мира взаимности мы получаем вот что. «Око за око» вводит в игру «Великодушную», та может ввести «Всегда сотрудничай», которая может развязать постоянное предательство — и вот мы опять возвращаемся к тому, с чего начали. Один из выводов Аксельрода оказался ошибочен: в этой игре стабильного исхода нет.

Лето 1992 года застало Зигмунда и Новака глубоко опечаленными: их обоих угнетало отсутствие устойчивого решения дилеммы заключенного — а такие вещи теоретики игр не любят. Впрочем, судьба распорядилась так, что жене Зигмунда, историку по профессии, предстояло провести несколько месяцев в Нижней Австрии в сказочном замке Розенбург, принадлежавшем графу, чьих предков она в то время изучала. Зигмунд пригласил Новака: они привезли с собой пару ноутбуков и с головой погрузились в турниры по дилемме заключенного. В замке обучали ловчих птиц, и днем наших математиков каждые два часа отвлекали соколы: отрабатывая технику полета, они то камнем падали вниз с высоты 300 метров, то взмывали вверх. Средневековое окружение идеально подходило для организованных внутри компьютеров поединков!

Зигмунд и Новак вернулись к самому началу и внесли в турнирные таблицы все ранее отвергнутые стратегии. Главной целью поисков стал вариант, который бы не только выиграл турнир, но и остался стабильным после него. Кроме того, они наделили своих игроков большей памятью. Вместо того, чтобы реагировать на последний ход партнера, как делает «Око за око», новые стратегии помнили собственные предыдущие ходы и действовали соответственно. И вот однажды, пока мимо окна носились соколы, на исследователей снизошло вдохновение. Раз за разом лидировала старая стратегия, впервые испробованная — кем же еще? — Анатолем Рапопортом. Последний назвал ее «Простаком» и, сочтя безнадежной, отбросил. Дело в том, что он поставил ее против «Всегда предавай», по сравнению с которой та и впрямь выглядела довольно наивной. Однако в мире Новака и Зигмунда, в котором господствовала «Око за око», «Простак» не только превзошел старого профи, но и оказался непобедимым впоследствии. Хотя он не может самостоятельно победить «Всегда предавай», стоит «Око за око» эту стратегию исключить, как он оказывается в центре внимания. И снова «Око за око» играет роль Иоанна Крестителя.

Другое название стратегии «Простак» — «Павлов». Хотя, по мнению некоторых, это еще более обманчиво, ибо рефлексивной данная стратегия не является — как раз наоборот. Новак признает, что ему следовало дать ей более неуклюжее, зато и более точное имя «Победа — повторяй/поражение — меняй». Но, поскольку он так этого и не сделал, «Павловым» она и осталась. Эта стратегия — сродни игроку в рулетку (точнее, несколько упрощенной его версии). Если он выигрывает, поставив на красное, то ставит на красное и в следующий раз. А если проигрывает, то пробует черное. В нашем случае выигрыш — 3 или 5 очков («награда» и «искушение»), проигрыш — 1 или о («наказание» и «штраф простофиле»). Такой принцип — отказ менять свое поведение, пока оно дает желаемый результат, — лежит в основе большей части повседневной деятельности, включая дрессировку собак и воспитание детей. Последнее целиком и полностью построено на допущении, что малыши будут совершать поступки, за которые их вознаграждают, и прекратят делать то, за что их наказывают.

Такой принцип — отказ менять свое поведение, пока оно дает желаемый результат, — лежит в основе большей части повседневной деятельности, включая дрессировку собак и воспитание детей.

Для стратегии «Павлов» характерна добропорядочность (как «Око за око») — ибо она устанавливает сотрудничество, взаимность — ибо она отвечает добротой на доброту, и прощение (как «Великодушной») — ибо она наказывает за ошибки, но потом вновь возвращается к сотрудничеству. При всем этом ей свойственна мстительность, позволяющая эксплуатировать таких наивных кооператоров, как «Всегда сотрудничай». Играя против простофили, «Павлов» всегда предает. Таким образом, он создает сотрудничающий мир, не позволяя последнему превратиться в слишком доверительную утопию, где будут процветать «халявщики».

Слабое место этой стратегии хорошо известно. Как обнаружил Рапопорт, она беспомощна перед непорядочной «Всегда предавай». «Павлов» постоянно смещается к сотрудничеству и получает «штраф простофиле» — отсюда, кстати, и ее первоначальное название «Простак». Иными словами, «Павлов» не может распространиться, пока «Око за око» не сделает свое дело и не устранит «плохих ребят». Впрочем, Новак и Зигмунд обнаружили, что такой изъян «Павлова» проявляется исключительно в детерминированной игре — той, в которой все стратегии определены заранее. В более реалистичном мире вероятностей и обучения, где каждая стратегия бросала кубик, чтобы решить, как поступить дальше, происходило нечто совершенно иное. «Павлов» быстро приспособил вероятности таким образом, что его превосходство больше не могло быть оспорено «Всегда предавай». Вот она, подлинная эволюционно стабильная стратегия74.

Данный текст является ознакомительным фрагментом.