Mean Field Games: игры с бесконечным числом игроков

Рынки, трафик и «безличная» конкуренция

Представьте тысячи трейдеров на финансовом рынке. Каждый рационален и влияет на цену, но каждый «мал» по сравнению с рынком в целом. Или тысячи пешеходов в узком коридоре — каждый оптимально выбирает путь, но взаимодействует со «средней плотностью» толпы, а не с каждым человеком индивидуально. Mean Field Games (MFG) — математическая теория именно таких систем: N → ∞ «малых» рациональных агентов с «взаимодействием через среднее поле». Разработана независимо Ласри-Лионсом (Франция) и Хуан-Малхам-Ма (Канада) в 2006-2007 годах. Это одна из самых активно развивающихся областей прикладной математики.

Ключевая идея: среднее поле

При N → ∞ «типичный» агент взаимодействует не с конкретными другими агентами, а с «распределением» всей популяции m(x, t) — плотностью агентов в состоянии x в момент t.

Предположение однородности: все агенты одинаковые (i.i.d. — независимые одинаково распределённые начальные состояния).

NE в пределе N → ∞: типичный агент оптимизирует свою стратегию, считая m(x,t) «данным» (не зависящим от его действий). В равновесии m(x,t) порождается именно этой оптимальной стратегией типичного агента — самосогласованность!

Система уравнений MFG

Две связанные задачи для типичного агента при данном m(x,t):

HJB (назад по времени): оптимальное управление типичного агента u*(x,t) при данном m:

−∂V/∂t − ν∆V + H(x, ∇V, m) = 0, V(x,T) = g(x, m(T))

FPK (вперёд по времени): эволюция распределения m при оптимальной стратегии u*(x,t):

∂m/∂t − ν∆m − div(m · Hₚ(x, ∇V, m)) = 0, m(x, 0) = m₀(x)

Здесь ν ≥ 0 — коэффициент диффузии (шум в динамике), H(x,p,m) — «игровой» гамильтониан.

Самосогласованность: V зависит от m (агент адаптируется к толпе), m зависит от V (толпа движется оптимально). Это нелинейная система!

Анализ уравнений

Существование решения: при разумных условиях на H существует решение (V,m) системы MFG. Для монотонных игр (где «больше агентов → менее привлекательно») — единственность.

Физический смысл:

V(x,t) — «ценность» нахождения в состоянии x в момент t для типичного агента
m(x,t) — распределение агентов в пространстве состояний
Hₚ = ∂H/∂p — оптимальное «дрейфовое поле» (скорость движения агентов)
∆-члены — случайные флуктуации (диффузия)

Применения MFG

Crowd dynamics (динамика толпы): m(x,t) — плотность пешеходов. Каждый выбирает путь, минимизируя время + дискомфорт от скученности. H = |u|²/2 + αm (штраф за плотную толпу). Решение MFG воспроизводит «образование полос» движения в коридоре — наблюдаемый физический эффект!

Финансовые рынки: «Торговля с ценовым воздействием». N трейдеров продают актив, каждая продажа снижает цену. MFG даёт «оптимальный» торговый алгоритм для каждого трейдера, учитывающий агрегированное влияние всей группы.

Телекоммуникации: пользователи распределённой сети выбирают ресурсы (каналы, серверы). MFG описывает «равновесие распределения» при большом числе пользователей.

Эпидемиология: агенты выбирают уровень «социального дистанцирования». MFG описывает «рациональное» поведение при пандемии — может не совпадать с «общественно оптимальным»!

Численные методы

Прямо-обратная схема:

Начальное m⁰
Решить HJB вперёд (при данном mᵏ) → Vᵏ
Решить FPK вперёд (при данном Vᵏ) → mᵏ⁺¹
Повторить до сходимости

Deep MFG (Carmona-Lauriere, 2021): аппроксимируем V(x,t) и m(x,t) нейросетями. Масштабируется до высоких размерностей (50+ переменных).

Полный разбор: задача о скоплении

Задача: N → ∞ частиц хотят достичь мишени в x=0. Динамика: dX = u dt + σ dW. Стоимость: J = E[∫(|u|²/2 + αm(X,t)) dt + |X(T)|²].

Штраф αm: агентам не нравится «скопление» (αm(X,t) — цена нахождения в скоплении).

MFG-система: HJB: −∂V/∂t − (σ²/2)∆V + |∇V|²/2 + αm = 0. FPK: ∂m/∂t + div(m∇V) − (σ²/2)∆m = 0.

Явное решение (одномерно, без диффузии): при α → 0: V(x,t) = x²/(2(T−t)) (свободная частица). m(x,t) → δ(x − x₀e^{−t}) (все движутся к 0). При α > 0: агенты «расходятся» от скопления, m более размытое. Это «компромисс» между движением к цели и избеганием толпы.

Mean Field Games: интуиция

Когда число игроков очень велико (миллионы), отслеживать стратегию каждого невозможно. MFG (Lasry-Lions, Caines-Huang, 2006-2007) делает прорыв: вместо взаимодействия каждого с каждым, каждый игрок взаимодействует с усреднённым полем (распределением плотности всех игроков).

Это аналог термодинамики: вместо отслеживания каждой молекулы — описание через макроскопические величины (температура, давление). MFG — «термодинамика стратегического поведения».

Связанная система уравнений

MFG описывается системой двух связанных УЧП:

Уравнение HJB (вперёд по времени): −∂_t u + H(x, ∇u, m) = 0, где u — функция ценности репрезентативного игрока, m — плотность распределения игроков
Уравнение Фоккера-Планка (назад по времени): ∂_t m − div(m · ∇_p H) = σ²Δm, описывающее эволюцию плотности m

Связь: u зависит от m (игрок реагирует на толпу), а m формируется оптимальной политикой ∇u (толпа состоит из оптимизирующих игроков). Это приводит к фиксированной точке.

Существование и численные методы

Существование решения MFG доказано при монотонности гамильтониана по m. Численные методы:

Метод фиктивной игры (fictitious play): итеративно обновлять u по фиксированному m, затем m по новому u
Sinkhorn для энтропийной регуляризации
DeepLearning подходы: Deep MFG (Carmona-Laurière) — нейросети представляют u и m

Применения

Толпы и эвакуация: моделирование движения людей в зданиях, на стадионах
Энергетика: миллионы потребителей выбирают тарифы и потребление
Финансы: систематический риск, modeling crowded trades
Эпидемиология: индивидуальные решения о вакцинации с учётом популяционного эффекта
Криптовалюты: майнеры как игроки в MFG за вычислительные ресурсы