Модуль III·Статья III·~4 мин чтения
Mean Field Games: игры с бесконечным числом игроков
Многоигровые и кооперативные дифференциальные игры
Превратить статью в подкаст
Выберите голоса, формат и длину — AI запишет аудио
Mean Field Games: игры с бесконечным числом игроков
Рынки, трафик и «безличная» конкуренция
Представьте тысячи трейдеров на финансовом рынке. Каждый рационален и влияет на цену, но каждый «мал» по сравнению с рынком в целом. Или тысячи пешеходов в узком коридоре — каждый оптимально выбирает путь, но взаимодействует со «средней плотностью» толпы, а не с каждым человеком индивидуально. Mean Field Games (MFG) — математическая теория именно таких систем: N → ∞ «малых» рациональных агентов с «взаимодействием через среднее поле». Разработана независимо Ласри-Лионсом (Франция) и Хуан-Малхам-Ма (Канада) в 2006-2007 годах. Это одна из самых активно развивающихся областей прикладной математики.
Ключевая идея: среднее поле
При N → ∞ «типичный» агент взаимодействует не с конкретными другими агентами, а с «распределением» всей популяции m(x, t) — плотностью агентов в состоянии x в момент t.
Предположение однородности: все агенты одинаковые (i.i.d. — независимые одинаково распределённые начальные состояния).
NE в пределе N → ∞: типичный агент оптимизирует свою стратегию, считая m(x,t) «данным» (не зависящим от его действий). В равновесии m(x,t) порождается именно этой оптимальной стратегией типичного агента — самосогласованность!
Система уравнений MFG
Две связанные задачи для типичного агента при данном m(x,t):
HJB (назад по времени): оптимальное управление типичного агента u*(x,t) при данном m:
−∂V/∂t − ν∆V + H(x, ∇V, m) = 0, V(x,T) = g(x, m(T))
FPK (вперёд по времени): эволюция распределения m при оптимальной стратегии u*(x,t):
∂m/∂t − ν∆m − div(m · Hₚ(x, ∇V, m)) = 0, m(x, 0) = m₀(x)
Здесь ν ≥ 0 — коэффициент диффузии (шум в динамике), H(x,p,m) — «игровой» гамильтониан.
Самосогласованность: V зависит от m (агент адаптируется к толпе), m зависит от V (толпа движется оптимально). Это нелинейная система!
Анализ уравнений
Существование решения: при разумных условиях на H существует решение (V,m) системы MFG. Для монотонных игр (где «больше агентов → менее привлекательно») — единственность.
Физический смысл:
- V(x,t) — «ценность» нахождения в состоянии x в момент t для типичного агента
- m(x,t) — распределение агентов в пространстве состояний
- Hₚ = ∂H/∂p — оптимальное «дрейфовое поле» (скорость движения агентов)
- ∆-члены — случайные флуктуации (диффузия)
Применения MFG
Crowd dynamics (динамика толпы): m(x,t) — плотность пешеходов. Каждый выбирает путь, минимизируя время + дискомфорт от скученности. H = |u|²/2 + αm (штраф за плотную толпу). Решение MFG воспроизводит «образование полос» движения в коридоре — наблюдаемый физический эффект!
Финансовые рынки: «Торговля с ценовым воздействием». N трейдеров продают актив, каждая продажа снижает цену. MFG даёт «оптимальный» торговый алгоритм для каждого трейдера, учитывающий агрегированное влияние всей группы.
Телекоммуникации: пользователи распределённой сети выбирают ресурсы (каналы, серверы). MFG описывает «равновесие распределения» при большом числе пользователей.
Эпидемиология: агенты выбирают уровень «социального дистанцирования». MFG описывает «рациональное» поведение при пандемии — может не совпадать с «общественно оптимальным»!
Численные методы
Прямо-обратная схема:
- Начальное m⁰
- Решить HJB вперёд (при данном mᵏ) → Vᵏ
- Решить FPK вперёд (при данном Vᵏ) → mᵏ⁺¹
- Повторить до сходимости
Deep MFG (Carmona-Lauriere, 2021): аппроксимируем V(x,t) и m(x,t) нейросетями. Масштабируется до высоких размерностей (50+ переменных).
Полный разбор: задача о скоплении
Задача: N → ∞ частиц хотят достичь мишени в x=0. Динамика: dX = u dt + σ dW. Стоимость: J = E[∫(|u|²/2 + αm(X,t)) dt + |X(T)|²].
Штраф αm: агентам не нравится «скопление» (αm(X,t) — цена нахождения в скоплении).
MFG-система: HJB: −∂V/∂t − (σ²/2)∆V + |∇V|²/2 + αm = 0. FPK: ∂m/∂t + div(m∇V) − (σ²/2)∆m = 0.
Явное решение (одномерно, без диффузии): при α → 0: V(x,t) = x²/(2(T−t)) (свободная частица). m(x,t) → δ(x − x₀e^{−t}) (все движутся к 0). При α > 0: агенты «расходятся» от скопления, m более размытое. Это «компромисс» между движением к цели и избеганием толпы.
Mean Field Games: интуиция
Когда число игроков очень велико (миллионы), отслеживать стратегию каждого невозможно. MFG (Lasry-Lions, Caines-Huang, 2006-2007) делает прорыв: вместо взаимодействия каждого с каждым, каждый игрок взаимодействует с усреднённым полем (распределением плотности всех игроков).
Это аналог термодинамики: вместо отслеживания каждой молекулы — описание через макроскопические величины (температура, давление). MFG — «термодинамика стратегического поведения».
Связанная система уравнений
MFG описывается системой двух связанных УЧП:
- Уравнение HJB (вперёд по времени): −∂_t u + H(x, ∇u, m) = 0, где u — функция ценности репрезентативного игрока, m — плотность распределения игроков
- Уравнение Фоккера-Планка (назад по времени): ∂_t m − div(m · ∇_p H) = σ²Δm, описывающее эволюцию плотности m
Связь: u зависит от m (игрок реагирует на толпу), а m формируется оптимальной политикой ∇u (толпа состоит из оптимизирующих игроков). Это приводит к фиксированной точке.
Существование и численные методы
Существование решения MFG доказано при монотонности гамильтониана по m. Численные методы:
- Метод фиктивной игры (fictitious play): итеративно обновлять u по фиксированному m, затем m по новому u
- Sinkhorn для энтропийной регуляризации
- DeepLearning подходы: Deep MFG (Carmona-Laurière) — нейросети представляют u и m
Применения
- Толпы и эвакуация: моделирование движения людей в зданиях, на стадионах
- Энергетика: миллионы потребителей выбирают тарифы и потребление
- Финансы: систематический риск, modeling crowded trades
- Эпидемиология: индивидуальные решения о вакцинации с учётом популяционного эффекта
- Криптовалюты: майнеры как игроки в MFG за вычислительные ресурсы
§ Акт · что дальше