Стохастические дифференциальные игры: постановка

Неопределённость в стратегическом взаимодействии

В детерминированных играх будущее предопределено: зная начальное состояние и стратегии обоих игроков, можно точно предсказать траекторию. В реальных системах всегда есть шум: рыночная волатильность, турбулентность, тепловые флуктуации. Стохастические дифференциальные игры (СДИ) расширяют детерминированную теорию на случай, когда динамика содержит случайное возмущение в виде броуновского движения. Это открывает новые инструменты анализа: стохастические HJI, BSDE, связь с финансовой математикой.

Стохастическая динамика

Стохастическое дифференциальное уравнение (СДУ):

dX = f(X, u, v, t) dt + σ(X, t) dW

Здесь:

X ∈ ℝⁿ — состояние
u ∈ U, v ∈ V — управления игроков
σ(X, t) ∈ ℝ^{n×m} — матрица волатильности
W — m-мерный стандартный броуновский процесс (Wiener process)

Функционал: J = E[g(X(T)) + ∫₀ᵀ F(X, u, v, t) dt] — ожидаемая стоимость.

Цель: min_u max_v J (или наоборот).

Принцип Беллмана в стохастическом случае

Для V(x,t) = min_u max_v E[...| X(t) = x]:

V(x,t) = min_u max_v E_{dW}[F dt + V(X+dX, t+dt)]

Используем формулу Ито: dV = V_t dt + ∇V·dX + (1/2)tr(σσᵀ ∇²V) dt.

Подставляя и переходя к пределу:

Стохастическое уравнение HJI:

∂V/∂t + (1/2)tr(σσᵀ ∇²V) + H*(x, t, ∇V) = 0

Дополнительный член (1/2)tr(σσᵀ ∇²V) — «итовский» член (следствие формулы Ито для стохастического дифференциала).

Сравнение:

Детерминированная HJI: ∂V/∂t + H* = 0
Стохастическая HJI: ∂V/∂t + (σ²/2)∆V + H* = 0

Стохастичность добавляет лапласиан ∆V = tr(∇²V), который «сглаживает» функцию ценности.

Оптимальные стратегии и принцип минимакса

Оптимальный игровой гамильтониан: H*(x,t,p,Q) = min_{u∈U} max_{v∈V} [F + pᵀf + (1/2)tr(σσᵀQ)]

Заметим: (1/2)tr(σσᵀQ) не зависит от u и v → «шумовой» член не влияет на оптимальные стратегии!

Следствие: оптимальные u* и v* в стохастической игре те же, что в детерминированной (при той же H). Шум меняет значение игры V, но не оптимальные стратегии.

Связанные обратные стохастические дифференциальные уравнения

Для задач с горизонтом T и терминальным условием можно представить V через BSDE (backward SDE):

Прямое СДУ (для X): dX = f(X, u*, v*, t)dt + σ dW, X(0) = x₀.

Обратное СДУ (для Y ≈ V(X,t), Z ≈ σᵀ∇V):

dY = −H(X, u*, v*, ∇V, t) dt + Zᵀ dW, Y(T) = g(X(T)).

Пара (Y, Z) — «сопряжённые процессы». Z — мартингальный компонент, аналог «волатильности» сопряжённого процесса.

Связь BSDE с принципом Понтрягина: сопряжённая переменная p(t) в стохастическом случае — это не просто ОДУ, а СДУ для (p, q), где q — дополнительный мартингальный член.

Полный разбор: стохастическая LQ-игра

Задача: dX = (u+v)dt + σ dW, X(0) = 1, J = E[X(T)² + ∫₀ᵀ (u² − v²)dt].

Стохастическое уравнение Риккати-Айзекса: (та же форма, что и детерминированном случае):

−Ṗ = −P² + P² = 0 → P = const = 1.

Оптимальные стратегии: u* = −X, v* = X (те же, что в детерминированной задаче!).

Замкнутая система: dX = (−X+X)dt + σ dW = σ dW → X(t) = 1 + σW(t).

Значение игры: V = E[X(T)²] + ∫₀ᵀ E[u² − v²]dt = E[(1+σW(T))²] = 1 + σ²T.

Детерминированный случай (σ=0): V = 1. Стохастический: V = 1 + σ²T.

Физический смысл: шум «увеличивает» значение игры. Это интуитивно: при случайном блуждании X, квадратичный функционал больше из-за «разброса» X.

Связь со стохастическим контролем и финансами

При одном игроке (нет v): стохастическое оптимальное управление (Fleming-Rishel). Уравнение HJB: ∂V/∂t + (σ²/2)∆V + min_u{F + p·f} = 0.

Уравнение Блэка-Шоулза — это частный случай! dS = μS dt + σS dW (цена акции). Цена опциона V удовлетворяет: ∂V/∂t + (1/2)σ²S²∂²V/∂S² + rS ∂V/∂S − rV = 0. Это HJB без управления (u = 0) + граничное условие. Вся финансовая теория опционов — частный случай стохастического оптимального управления!

Стохастические дифференциальные игры

Когда динамика подвержена случайным возмущениям (шум рынка, ветер, неопределённость измерений), классическая HJI обобщается на стохастический HJI:

V_t + min_u max_v {F + ∇V · f + (1/2) tr(σσᵀ ∇²V)} = 0

Дополнительный член tr(σσᵀ ∇²V) — это «диффузия» функции ценности из-за шума. Уравнение — параболическое (не гиперболическое, как в детерминированном случае), что упрощает анализ: вязкостные решения существуют при широких условиях.

Связь с финансовой математикой

Уравнение Блэка-Шоулса для оценки опционов — частный случай стохастической дифференциальной игры (с одним игроком — продавцом опциона, страхующимся от движений рынка). Расширения — игры между трейдерами (market making), оптимальное исполнение крупных заказов с учётом impact на цену.

Численные методы

Стохастические сетки: расширение конечных разностей
Symmetric splitting: разделение на детерминированную и шумовую части
Backward SDE (BSDE): представление V через стохастические уравнения, численное решение через метод Лонгстаффа-Шварца
Deep BSDE (E-Han-Jentzen, 2017): нейросетевая аппроксимация для высоких размерностей

Современные приложения

Управление портфелем с риск-неопределённостью: робастная оптимизация Маркетти-Шейнинга
Распределённая энергетика: координация миллионов потребителей с шумовыми нагрузками
Беспилотный транспорт: учёт неопределённости поведения других участников
Робототехника в сложных условиях: квадрокоптеры в ветре