Обучение в играх и поведенческая теория игр

Как игроки «находят» равновесие?

Теория говорит, что в равновесии Нэша никому не выгодно отклоняться. Но как игроки попадают в равновесие? Вряд ли каждый заранее решает систему уравнений. Реальный процесс — адаптивное обучение: наблюдение за прошлым, корректировка стратегии, постепенное приближение к равновесию.

Модели обучения разрушают представление о мгновенно рациональных агентах. Вместо этого — итеративный процесс, который может сходиться к равновесию или нет.

Фиктивная игра (Fictitious Play)

Правило: В каждом периоде t игрок i: (1) наблюдает частоты прошлых действий соперников; (2) формирует убеждения как эмпирические частоты; (3) выбирает наилучший ответ на эти убеждения.

Формально: пусть n_j^t(s) — число раз, когда j сыграл s до t. Убеждение: π_j^t(s) = n_j^t(s)/t. Выбор: a_i^t = argmax_s u_i(s, π_{-i}^t).

Сходимость: ФИ сходится к равновесию в: (1) играх с нулевой суммой (Робинсон, 1951); (2) потенциальных играх; (3) 2×2 играх с общими интересами. Не сходится в общем случае (пример Шапли, 1964: цикл в 3×3).

Числовой пример (2×2, фиктивная игра): Матрица координации:

	L	R
T	(2,2)	(0,0)
B	(0,0)	(1,1)

Начало: Игрок 1 играет T, Игрок 2 играет L. t=1: u₁(T|L)=2 > u₁(B|L)=0 → T; u₂(L|T)=2 > u₂(R|T)=0 → L. Оба сохраняют (T,L). Процесс немедленно сходится к равновесию (2,2). Верхнее равновесие «доминирует» в динамике.

Регрет-минимизация

Сожаление (regret): После T периодов сожаление по стратегии s:

R^T_i(s) = (1/T)·Σ_t u_i(s, a^t_{-i}) − (1/T)·Σ_t u_i(a^t)

Сожаление = насколько лучше было бы всегда играть s вместо реально сыгранного. Внешнее сожаление: R^T_i = max_s R^T_i(s).

No-regret алгоритм: Алгоритм с нулевым внешним сожалением: R^T_i/T → 0 при T → ∞. Один из первых no-regret алгоритмов — алгоритм Хэннана (1957).

Связь с равновесием: Если все игроки применяют no-regret алгоритмы, эмпирическое распределение стратегий сходится к коррелированным равновесиям (Ауманн, 1987) — более широкому классу, чем РН.

Алгоритм Multiplicative Weights Update (MWU)

Один из самых мощных online-алгоритмов: веса w^t(s), обновляются по:

w^{t+1}(s) = w^t(s) · exp(η · u_i(s, a^t_{-i}))

Выбор пропорционален весам. Гарантирует R^T_i = O(√T) — сожаление растёт медленнее, чем T → no-regret. Лежит в основе: бустинга (AdaBoost), стохастического градиентного спуска, EM-алгоритма.

Поведенческая теория игр

Реальные люди систематически отклоняются от предсказаний стандартной теории игр. Три ключевых направления:

1. Ограниченная рациональность (bounded rationality): Модель «уровней мышления» (Камерер): уровень k-агент думает, что все соперники на уровне k−1. Уровень 0: случайный выбор. Уровень 1: лучший ответ на случайный выбор. Уровень 2: лучший ответ на уровень 1. Эмпирически большинство людей на уровне 1–2. Предсказание: промежуточные результаты между «наивным» и равновесным.

2. Социальные предпочтения: Люди заботятся не только о своём выигрыше, но и о «справедливости» и выигрышах других. Модель Фера–Шмидта: uᵢ = xᵢ − α max(xⱼ − xᵢ, 0) − β max(xᵢ − xⱼ, 0). Первый член: выигрыш. Второй: «зависть» (страдание от того, что другие имеют больше). Третий: «чувство вины» (страдание от того, что ты имеешь больше других).

3. Ограниченная воля и эффекты фрейминга: Одно и то же решение описывается по-разному → разные выборы. Эффект потерь (loss aversion): потери ощущаются сильнее выигрышей. Дефолтный эффект: стандартная опция выбирается непропорционально часто. Нудж (Талер–Санстейн): изменение «архитектуры выбора» меняет поведение без изменения стимулов.

Реальные приложения

Пенсионные накопления (Талер, Нобель 2017): В США «opt-out» дефолт (автоматическое зачисление с правом выхода) увеличил участие в пенсионных программах с ~40% до ~90%. Стандартная теория игр предсказывает: дефолт не важен (рациональный агент зарегистрируется сам). Поведенческая теория: дефолт — «нудж», использующий инертность.

Переговоры: Эффект якоря: первое предложение влияет на финальный результат несоразмерно. Поведенческие переговорщики (и лучшие дипломаты) это учитывают.

Обучение в играх и поведенческая экономика в практике

Алгоритмы обучения в играх применяются в алгоритмической торговле и искусственном интеллекте. Алгоритмы маркет-мейкинга на финансовых рынках используют онлайн-обучение (алгоритм «без сожаления»): маркет-мейкер обновляет спред bid-ask на основе исторических данных, минимизируя потери от информированных трейдеров. В рекламных системах Google и Meta алгоритмы назначения ставок в реальном времени (RTB) используют методы обучения с подкреплением, которые обновляют стратегии ставок на основе результатов прошлых аукционов. Модель Фера–Шмидта «неприятие неравенства» объясняет отказ от «несправедливых» предложений в ультиматумных экспериментах: в 15 культурах, исследованных Хенрихом и др. (2001), уровни отказа варьировались от 10 до 60%, что связано с культурными нормами справедливости. Поведенческая теория игр внедряется в дизайн бонусных систем: работодатели, предлагающие «подарочные» зарплаты выше рыночной нормы, получают более высокую производительность из-за реципрокного поведения работников (эффект Акерлофа, измеренный экспериментально Файром и Гятчером). В переговорах знание принципов «k-уровневого мышления» помогает выбрать стратегию с учётом реального, а не рационального поведения оппонента.

Задание: (а) Для матрицы (Орёл–Решка) смоделируйте фиктивную игру на 10 периодов: начните с T (Ор.) для П1 и L (Ор.) для П2. Как меняются убеждения и действия? К чему сходятся эмпирические частоты? (б) Модель Фера–Шмидта с α = 0.5, β = 0.25: при исходе (8, 4) вычислите полезность каждого игрока. Стоит ли игрок 1 «снизить» свой выигрыш до (6,6)? (в) В игре ультиматум реальные игроки отвергают предложения ниже 20–30%. Как это объясняет модель Фера–Шмидта?