Динамические игры и совершенное равновесие по подыграм

Почему статических игр недостаточно?

В реальном бизнесе и политике решения принимаются последовательно, причём более поздние игроки наблюдают ранние ходы. Компания решает выйти на рынок, зная, что действующая фирма затем может устроить ценовую войну. Стороны поочерёдно делают предложения на переговорах. Страны вводят санкции в ответ на действия соперника.

В таких ситуациях равновесие Нэша допускает «пустые угрозы» — действия, о которых объявлено, но которые не будут выполнены рационально. Концепция совершенного равновесия по подыграм (SPNE) устраняет такие угрозы.

Игры в развёрнутой форме и деревья

Динамическая игра изображается деревом: узлы — точки принятия решений, рёбра — действия, листья — выигрыши. Дополнительно: информационные множества (узлы, между которыми игрок не может различить) описывают неполную информацию о ходе игры.

Подыгра — фрагмент дерева, начинающийся в одном узле (singleton информационное множество) и включающий все его поддеревья. Подыгра должна быть «замкнутой»: нельзя разрывать информационные множества.

Обратная индукция

Для конечных игр с совершенной информацией равновесие находится методом обратной индукции (backward induction):

Начать с листьев — выписать выигрыши
В каждом нетерминальном узле текущего игрока выбрать действие, максимизирующее выигрыш
Заменить поддерево выигрышем этого оптимального хода
Перейти на уровень выше и повторить

Теорема Зермело (1913): В конечной игре двух игроков с нулевой суммой и совершенной информацией один из игроков имеет выигрышную стратегию, или оба могут гарантировать ничью. Применение к шахматам: теоретически одна из трёх ситуаций предопределена, но вычислить какая — нереально.

Числовой пример: вход на рынок

Монополист (М) и потенциальный конкурент (К). К первым решает Войти (В) или Не входить (НВ). Если К вошёл, М выбирает: Воевать (Вн) или Приспособиться (Пр).

Дерево: К → (В → М → {Вн: (−1, 1), Пр: (2, 2)}; НВ: (0, 4))

Выигрыши (К, М). Обратная индукция: При В: М выбирает Пр (2 > 1 для М). К знает это: при В получает 2; при НВ получает 0. Значит К выбирает В.

SPNE: К входит, М приспосабливается. Выигрыши: (2, 2).

Угроза М «если войдёшь — устрою ценовую войну» невероятна: на подыгре «после входа» М лучше приспособиться. Это невероятная угроза, которую SPNE устраняет.

Совершенное равновесие по подыграм

Профиль стратегий s* является SPNE, если он является равновесием Нэша в каждой подыгре, включая полную игру.

Отличие от равновесия Нэша: РН допускает угрозы, никогда не реализуемые. SPNE требует, чтобы каждое решение было оптимальным на пути и вне пути.

Игра «ультиматум»: Игрок 1 предлагает разделить 100 рублей (x, 100−x). Игрок 2 принимает или отвергает. При отказе — оба получают 0.

Обратная индукция: Игрок 2 принимает любое x > 0 (лучше, чем 0). Игрок 1 предложит x = 1 (минимум, который примет И2). SPNE: (1, 99) и принятие любого x ≥ 1.

Эксперименты: реальные люди предлагают 40–50% и отвергают предложения ниже 20–30%. «Несправедливые» предложения отвергаются вопреки SPNE. Это «поведенческая» аномалия — нарушение чистой материальной рациональности из-за чувства справедливости.

Повторяющиеся игры и кооперация

В бесконечно повторяющейся дилемме заключённого кооперация может поддерживаться стратегией «триггер» (grim trigger): сотрудничать до первого предательства, затем предавать навсегда. Условие кооперации: δ ≥ (b−a)/(b−d), где a — взаимная кооперация, b — выигрыш предателя, d — взаимное предательство.

Народная теорема: В бесконечно повторяющейся игре при достаточно терпеливых игроках (δ → 1) любой допустимый и индивидуально рациональный вектор выигрышей поддерживается как SPNE. Это объясняет «молчаливый сговор» — фирмы не договариваются явно, но поддерживают высокие цены через угрозу ценовой войны.

Компьютерные шахматы реализуют обратную индукцию через алгоритм минимакс с альфа-бета отсечением — это SPNE на игровом дереве в явном виде. AlphaZero заменил явное перебирание дерева нейросетевой оценкой позиции, но принцип оценки «с конца» — ожидаемого результата при наилучшей игре обеих сторон — сохранился в виде метода Монте-Карло по дереву игры.

SPNE в корпоративной стратегии и переговорах

Совершенное равновесие по подыграм применяется во множестве реальных ситуаций. В корпоративных переговорах модель Рубинштейна с чередующимися предложениями предсказывает: при равном дисконтировании стороны делят сумму ровно пополам, а нетерпеливая сторона получает меньшую долю. Это объясняет, почему срочная потребность в сделке ослабляет переговорную позицию. В стратегии ценообразования крупные фирмы иногда устанавливают намеренно низкие цены до появления конкурента — так называемое «сдерживающее ценообразование» (limit pricing). Обратная индукция показывает, когда эта стратегия рациональна: только если война цен действительно выгоднее дуополии для доминирующей фирмы. При высоких фиксированных издержках конкурента невероятная угроза войны может быть достаточной. Теория SPNE также используется в антимонопольном регулировании: регуляторы моделируют дерево слияния компаний, чтобы предсказать поведение объединённой фирмы и оценить ущерб конкуренции без реального опыта слияния.

Совершенное равновесие по подыграм в корпоративной стратегии

SPNE применяется при структурировании корпоративных сделок и конкурентных стратегий. Переговоры о слиянии с чередованием предложений моделируются как игра Рубинштейна: более терпеливая сторона (с меньшим коэффициентом дисконтирования) получает большую долю создаваемой стоимости. Это объясняет, почему компании в состоянии финансового давления продаются по заниженной цене — их «терпение» ниже. В стратегии выхода на рынок угроза ценовой войны со стороны действующего игрока предотвращает вход только если она достоверна в контексте SPNE. Если ценовая война обошлась бы действующему игроку дороже, чем допуск нового конкурента, угроза не является SPNE и новый игрок должен входить. Это лежит в основе «сигнальных» стратегий: действующие игроки инвестируют в избыточные производственные мощности, чтобы сделать угрозу войны достоверной. Инвестиции в репутацию, создание «моста» через долгосрочные контракты и публичные обязательства — всё это механизмы превращения недостоверных угроз в достоверные, изменяющие SPNE в пользу действующего игрока.

Задание: Постройте дерево для игры «ультиматум» с тремя возможными предложениями: (10, 90), (50, 50), (90, 10). Найдите все равновесия Нэша и все SPNE. Объясните, почему RN больше SPNE.