Модуль I·Статья I·~4 мин чтения
Что такое дифференциальная игра: история и постановка
Введение в дифференциальные игры
Превратить статью в подкаст
Выберите голоса, формат и длину — AI запишет аудио
Что такое дифференциальная игра: история и постановка
Рождение теории: от ракет до экономики
В 1950-е годы холодная война поставила военных аналитиков перед новой задачей: как перехватить высокоманёвренную ракету? Как уйти от перехватчика? Это не задача оптимального управления в обычном смысле — у «цели» есть собственная воля и она активно противодействует. Руфус Айзекс, работая в RAND Corporation, понял: это совершенно новый класс математических задач. Он придумал теорию дифференциальных игр и написал классическую книгу «Differential Games» (1965). Сегодня дифференциальные игры — это не только теория ракет. Это математический язык для конкурентных рынков, переговоров, автономных автомобилей и биологии хищник-жертва.
Ключевое отличие от оптимального управления
В задаче оптимального управления: один игрок управляет системой, минимизируя стоимость. Природа «не против» — нет противника. В дифференциальной игре: два (или более) игрока управляют совместно используемой системой, и их цели конфликтуют.
Это делает задачу принципиально сложнее: оптимальная стратегия одного игрока зависит от стратегии другого, и та — от стратегии первого. Это «петля»: нужно найти стратегии, которые одновременно оптимальны при заданных стратегиях противника.
Формальная постановка
Двухигровая нулевая сумма (самый изученный случай):
Динамика: ẋ = f(x, u, v), x ∈ ℝⁿ (состояние), u ∈ U (управление игрока P, минимизатора), v ∈ V (управление игрока E, максимизатора).
Функционал: J = g(x(T)) + ∫₀ᵀ F(x(t), u(t), v(t)) dt.
Цели игроков:
- Игрок P (преследователь/минимизатор): min_u max_v J
- Игрок E (убегающий/максимизатор): max_v min_u J
Значение игры V(x₀) существует, если выполнено условие Айзекса (см. следующую статью):
V = min_u max_v J = max_v min_u J
Что значит «стратегия»?
В отличие от статических игр, у игроков есть три типа стратегий:
Разомкнутая стратегия: u = u(t) — управление как функция только времени. Планируется заранее, не реагирует на состояние системы. Математически проще, но нереалистична для практики.
Стратегия в форме обратной связи: u = α(x, t) — управление как функция текущего состояния. Каждый игрок «видит» x и реагирует. Это реалистичная модель для реальных систем.
Стратегия обратной связи по выходу: u = α(y, t), где y = h(x) — неполное наблюдение. Наиболее сложный случай.
Важный факт: для нулевых игр при условии Айзекса значение игры одинаково для разомкнутых и обратносвязанных стратегий!
Классификация игр
По сумме: нулевая сумма (J₁ + J₂ = 0 — интересы полностью противоположны), ненулевая сумма (у каждого свой J), кооперативные (игроки могут договариваться).
По информации: полная информация (оба видят x), неполная (x частично скрыто).
По горизонту: конечный (T < ∞), бесконечный (T = ∞, задача преследования до захвата).
По динамике: линейные (f = Ax + Bu + Cv), нелинейные, стохастические (с шумом).
Связь с теорией оптимального управления
При v = 0 (нет второго игрока) дифференциальная игра вырождается в задачу оптимального управления. Все инструменты оптимального управления — принцип Понтрягина, уравнение ГЯ-Беллмана — переносятся в теорию игр с модификациями.
Принцип Понтрягина → принцип минимакса Айзекса. Уравнение ГЯ-Беллмана → уравнение Гамильтона-Якоби-Айзекса (HJI).
Примеры из реальной жизни
Авиация: перехватчик (P) и цель (E). Перехватчик хочет минимизировать расстояние к цели. Цель — максимизировать. Оптимальная стратегия P: лететь к «упреждающей точке», а не напрямую.
Экономика: две компании устанавливают цены на конкурирующие товары. Цена первой влияет на спрос второй и наоборот. Динамическая модель → дифференциальная игра.
Автономные автомобили: два автомобиля на перекрёстке. Каждый хочет проехать, не столкнувшись. Это задача Stackelberg или Nash-равновесия в дифференциальной игре.
Биология: хищник и жертва в трёхмерном пространстве. Стратегически оптимальная «погоня» не всегда — «напрямую».
Историческое развитие
После Айзекса теория развивалась несколькими направлениями. В 1970-80-е годы Bensoussan, Friedman, Elliott-Kalton разработали математически строгие основы. В 1980-90-е появились вязкостные решения Crandall-Lions для уравнения HJI, что закрыло вопрос существования и единственности значения игры. В 2000-е расцвет mean field games Lasry-Lions и Caines-Huang дал инструменты для игр с миллионами игроков (модели толпы, рынки, биология). В 2010-е появились связи с обучением с подкреплением: алгоритмы Q-learning для марковских игр, многоагентное RL.
Современные численные методы
- Конечно-разностные схемы для HJI: Lax-Friedrichs, ENO/WENO upwind, level-set (Osher-Sethian) — стандарт для задач малой размерности (n ≤ 4)
- Метод полу-Лагранжа (Falcone, Ferretti): эффективен для задач с разрывами
- Адаптивные сетки: AMR (Adaptive Mesh Refinement) для локального уточнения
- Нейросетевые аппроксимации: Deep Galerkin, PINNs для HJI в высокой размерности — прорыв 2018-2023
- Reach-avoid анализ: Hamilton-Jacobi reachability в библиотеках hj_reachability (Python), helperOC (MATLAB)
Применения
Дифференциальные игры используются в управлении автономным транспортом (Tesla, Waymo используют game-theoretic planning для взаимодействия с другими водителями), в робастном финансовом моделировании (Avellaneda, Zariphopoulou), в кибербезопасности (атакующий vs защитник), в энергосетях (DR-агенты конкурируют за ёмкость).
§ Акт · что дальше