Повторяющиеся игры и народная теорема

Тень будущего меняет всё

Когда два агента взаимодействуют один раз, дилемма заключённого ведёт к взаимному предательству. Но в реальных бизнес-отношениях компании встречаются снова и снова — квартальные переговоры, повторные закупки, долгосрочные контракты. В таких условиях «тень будущего» — ожидание повторных взаимодействий — может поддерживать кооперацию.

Повторяющиеся игры — модель, формализующая этот механизм. Они объясняют, почему честность может быть стратегически выгодна, а молчаливый сговор возникает без явных договорённостей.

Структура повторяющейся игры

Стандартная игра G (stage game) играется в периоды t = 1, 2, 3, ... Игрок i дисконтирует будущее с фактором δᵢ ∈ (0, 1): выигрыш в следующем периоде стоит сейчас δ раз меньше. Общий (нормированный) выигрыш:

Vᵢ = (1−δ) Σ_{t=1}^∞ δ^{t−1} · uᵢ(aᵗ)

Нормировка на (1−δ) делает Vᵢ сопоставимым с выигрышем в одной стадии. При δ → 1: игрок терпелив, высоко ценит будущее. При δ → 0: «живёт только сегодня», будущее не важно.

Стратегия в повторяющейся игре — функция из полной истории в текущее действие: sᵢ: ∪_{t≥0} Aᵗ → Aᵢ.

Ключевые стратегии и числовой пример

Дилемма заключённого:

	С (сотрудничество)	П (предательство)
С	(3, 3)	(0, 5)
П	(5, 0)	(1, 1)

Выигрыши: a = 3 (взаимная кооперация), b = 5 (предательство при кооперации соперника), d = 1 (взаимное предательство).

Grim trigger (жёсткий триггер): Начать с С. Если соперник предаёт — переключиться на П навсегда.

Проверка устойчивости: При совместной кооперации каждый получает V = 3 (нормированный). Выгода от одностороннего предательства сегодня: 5 − 3 = 2. Потери в будущем (штраф): (3 − 1)·δ/(1−δ) = 2δ/(1−δ) (бесконечный поток, снижение с 3 до 1).

Кооперация устойчива, если: 2 ≤ 2δ/(1−δ) → δ ≥ 1/2.

При δ ≥ 1/2: кооперация поддерживается как SPNE стратегией grim trigger. При δ = 0.6: кооперация выгодна. При δ = 0.4: нет, предательство сегодня привлекательнее потерь в будущем.

Tit-for-tat: Начать с С, затем копировать действие соперника из предыдущего периода. Аксельрод (1984) проводил компьютерные турниры: tit-for-tat побеждал стратегии экспертов благодаря четырём свойствам: доброта (начинает кооперацией), ответность (наказывает предательство), прощение (возвращается к кооперации), ясность (предсказуема).

Народная теорема

Теорема (Фридман, 1971; Ауманн–Шапли, 1976): Пусть V* — множество допустимых и индивидуально рациональных векторов выигрышей: v ∈ V* тогда и только тогда, когда v достижим смешанными стратегиями и vᵢ ≥ min_{s₋ᵢ} max_{sᵢ} uᵢ (minimax). Тогда для любого v ∈ int(V*) существует δ̄ < 1 такое, что при δ ≥ δ̄ вектор v поддерживается как SPNE бесконечно повторяющейся игры.

Практический смысл: При достаточно терпеливых игроках практически любой совместно выгодный исход может быть достигнут в равновесии — кооперация «возникает» из чистого эгоизма. Это объясняет: долгосрочные деловые отношения; репутационные механизмы; молчаливый сговор в олигополиях.

Олигополия и молчаливый сговор

Народная теорема объясняет, почему авиакомпании, банки или нефтяные компании могут поддерживать высокие цены без явного сговора. Условия, облегчающие сговор: небольшое число фирм (легче координация и наказание); прозрачное ценообразование (наблюдаемые отклонения); стабильный спрос (низкое дисконтирование); высокие барьеры входа.

Антимонопольные органы отслеживают именно эти структурные признаки, а не только прямые доказательства сговора.

Экспериментальные данные о кооперации: Аксельрод (1984) провёл компьютерные турниры повторяющейся дилеммы заключённого — стратегия tit-for-tat (Анатолий Рапопорт) победила 14 стратегий экспертов. Реальные наблюдения в организациях: ротация кадров разрушает повторные взаимодействия и снижает кооперацию. Устойчивые команды с долгим горизонтом работают эффективнее — высокий δ превращает кооперацию в равновесие даже без формального контракта.

Повторяющиеся игры и институциональное доверие

Народная теорема объясняет, почему устойчивые социальные институты могут возникать без внешнего принуждения. Репутационный механизм работает так: фирма, обманувшая покупателя сегодня, теряет его навсегда — потеря будущей выручки превышает выгоду одноразового обмана, если δ достаточно велико. Именно поэтому долгосрочные бренды дорожат репутацией: «Репутация стоит дороже разового контракта». В международных отношениях страны выполняют торговые договора не из альтруизма, а потому что ценят будущий доступ к рынкам. В трудовых отношениях явление «дара обмена» (Акерлоф, 1984) описывает, как работники работают производительнее, чем требуется по контракту — в ответ на щедрую зарплату, как в неявной повторяющейся игре. Ограничения народной теоремы: при конечном горизонте сотрудничество разрушается через обратную индукцию (в последнем периоде нет будущего наказания → все предают → откатываемся на один период назад). Поэтому неопределённый горизонт взаимодействия принципиально важен для поддержания кооперации.

Устойчивость кооперации в международных отношениях и международной торговле

Народная теорема подтверждается многочисленными реальными примерами. Картельные соглашения ОПЕК, договоры об ограничении вооружений, режимы международной торговли ВТО — все они представляют собой равновесия повторяющихся игр. Устойчивость картеля обратно пропорциональна процентной ставке (чем выше ставка, тем сильнее краткосрочное давление в сторону измены) и прямо пропорциональна частоте мониторинга поведения участников. Именно поэтому страны ОПЕК периодически обвиняют друг друга в нарушении квот: тайные снижения цен — это «измена» в повторяющейся игре. Международные климатические переговоры также моделируются как повторяющаяся игра с проблемой безбилетника: каждая страна имеет стимул отклониться от сокращения выбросов, перекладывая бремя на других. Рамочные механизмы типа «давление и вознаграждение» (система торговли углеродными квотами, трансграничный углеродный налог) трансформируют однократную игру во множество повторяющихся взаимодействий с мониторингом и наказанием. Торговые соглашения ВТО применяют принцип «взаимности»: государство, нарушившее тарифные обязательства, подвергается ответным тарифам от пострадавших стран — это и есть механизм наказания в духе grim trigger.

Задание: (а) Для дилеммы заключённого (a=3, b=5, d=1): при δ=0.6 и grim trigger, является ли кооперация SPNE? Вычислите порог δ. (б) При стратегии tit-for-tat: покажите, что кооперация поддерживается при δ ≥ (b−a)/(b−d). Одинаков ли порог для grim trigger и tit-for-tat? (в) Что будет, если b = 4 (ниже прибыль от предательства)? Как это меняет устойчивость кооперации?