Что такое дифференциальная игра: история и постановка

Рождение теории: от ракет до экономики

В 1950-е годы холодная война поставила военных аналитиков перед новой задачей: как перехватить высокоманёвренную ракету? Как уйти от перехватчика? Это не задача оптимального управления в обычном смысле — у «цели» есть собственная воля и она активно противодействует. Руфус Айзекс, работая в RAND Corporation, понял: это совершенно новый класс математических задач. Он придумал теорию дифференциальных игр и написал классическую книгу «Differential Games» (1965). Сегодня дифференциальные игры — это не только теория ракет. Это математический язык для конкурентных рынков, переговоров, автономных автомобилей и биологии хищник-жертва.

Ключевое отличие от оптимального управления

В задаче оптимального управления: один игрок управляет системой, минимизируя стоимость. Природа «не против» — нет противника. В дифференциальной игре: два (или более) игрока управляют совместно используемой системой, и их цели конфликтуют.

Это делает задачу принципиально сложнее: оптимальная стратегия одного игрока зависит от стратегии другого, и та — от стратегии первого. Это «петля»: нужно найти стратегии, которые одновременно оптимальны при заданных стратегиях противника.

Формальная постановка

Двухигровая нулевая сумма (самый изученный случай):

Динамика: ẋ = f(x, u, v), x ∈ ℝⁿ (состояние), u ∈ U (управление игрока P, минимизатора), v ∈ V (управление игрока E, максимизатора).

Функционал: J = g(x(T)) + ∫₀ᵀ F(x(t), u(t), v(t)) dt.

Цели игроков:

Игрок P (преследователь/минимизатор): min_u max_v J
Игрок E (убегающий/максимизатор): max_v min_u J

Значение игры V(x₀) существует, если выполнено условие Айзекса (см. следующую статью):

V = min_u max_v J = max_v min_u J

Что значит «стратегия»?

В отличие от статических игр, у игроков есть три типа стратегий:

Разомкнутая стратегия: u = u(t) — управление как функция только времени. Планируется заранее, не реагирует на состояние системы. Математически проще, но нереалистична для практики.

Стратегия в форме обратной связи: u = α(x, t) — управление как функция текущего состояния. Каждый игрок «видит» x и реагирует. Это реалистичная модель для реальных систем.

Стратегия обратной связи по выходу: u = α(y, t), где y = h(x) — неполное наблюдение. Наиболее сложный случай.

Важный факт: для нулевых игр при условии Айзекса значение игры одинаково для разомкнутых и обратносвязанных стратегий!

Классификация игр

По сумме: нулевая сумма (J₁ + J₂ = 0 — интересы полностью противоположны), ненулевая сумма (у каждого свой J), кооперативные (игроки могут договариваться).

По информации: полная информация (оба видят x), неполная (x частично скрыто).

По горизонту: конечный (T < ∞), бесконечный (T = ∞, задача преследования до захвата).

По динамике: линейные (f = Ax + Bu + Cv), нелинейные, стохастические (с шумом).

Связь с теорией оптимального управления

При v = 0 (нет второго игрока) дифференциальная игра вырождается в задачу оптимального управления. Все инструменты оптимального управления — принцип Понтрягина, уравнение ГЯ-Беллмана — переносятся в теорию игр с модификациями.

Принцип Понтрягина → принцип минимакса Айзекса. Уравнение ГЯ-Беллмана → уравнение Гамильтона-Якоби-Айзекса (HJI).

Примеры из реальной жизни

Авиация: перехватчик (P) и цель (E). Перехватчик хочет минимизировать расстояние к цели. Цель — максимизировать. Оптимальная стратегия P: лететь к «упреждающей точке», а не напрямую.

Экономика: две компании устанавливают цены на конкурирующие товары. Цена первой влияет на спрос второй и наоборот. Динамическая модель → дифференциальная игра.

Автономные автомобили: два автомобиля на перекрёстке. Каждый хочет проехать, не столкнувшись. Это задача Stackelberg или Nash-равновесия в дифференциальной игре.

Биология: хищник и жертва в трёхмерном пространстве. Стратегически оптимальная «погоня» не всегда — «напрямую».

Историческое развитие

После Айзекса теория развивалась несколькими направлениями. В 1970-80-е годы Bensoussan, Friedman, Elliott-Kalton разработали математически строгие основы. В 1980-90-е появились вязкостные решения Crandall-Lions для уравнения HJI, что закрыло вопрос существования и единственности значения игры. В 2000-е расцвет mean field games Lasry-Lions и Caines-Huang дал инструменты для игр с миллионами игроков (модели толпы, рынки, биология). В 2010-е появились связи с обучением с подкреплением: алгоритмы Q-learning для марковских игр, многоагентное RL.

Современные численные методы

Конечно-разностные схемы для HJI: Lax-Friedrichs, ENO/WENO upwind, level-set (Osher-Sethian) — стандарт для задач малой размерности (n ≤ 4)
Метод полу-Лагранжа (Falcone, Ferretti): эффективен для задач с разрывами
Адаптивные сетки: AMR (Adaptive Mesh Refinement) для локального уточнения
Нейросетевые аппроксимации: Deep Galerkin, PINNs для HJI в высокой размерности — прорыв 2018-2023
Reach-avoid анализ: Hamilton-Jacobi reachability в библиотеках hj_reachability (Python), helperOC (MATLAB)

Применения

Дифференциальные игры используются в управлении автономным транспортом (Tesla, Waymo используют game-theoretic planning для взаимодействия с другими водителями), в робастном финансовом моделировании (Avellaneda, Zariphopoulou), в кибербезопасности (атакующий vs защитник), в энергосетях (DR-агенты конкурируют за ёмкость).