Постановка задачи оптимального управления

В вариационном исчислении искомая функция y(x) гладкая и без ограничений. Но представьте космический корабль с тягой двигателя u(t): её величина не может превышать максимальной тяги, она может включаться-выключаться скачком. Классическое исчисление здесь бессильно — нужен новый аппарат. Теория оптимального управления, разработанная Львом Понтрягиным и его школой в 1950-60-х годах, обобщает вариационное исчисление для случая, когда «управление» u ограничено заданным множеством, а изменения могут быть разрывными. Это привело к одному из величайших результатов прикладной математики XX века — принципу максимума Понтрягина.

Стандартная задача оптимального управления

Задача Болзы: max J = φ(x(T), T) + ∫₀^T L(x(t), u(t), t) dt при условиях:

Уравнение состояния: ẋ = f(x(t), u(t), t), x(0) = x₀.
Управление: u(t) ∈ U ⊂ ℝᵐ — допустимое множество (часто компакт).
Краевые условия: ψ(x(T), T) = 0 (или x(T) свободно).

Расшифровка. x(t) ∈ ℝⁿ — состояние системы (положение, скорость, остаток топлива). u(t) — управление (тяга, угол поворота руля, ставка налога). L — мгновенная полезность/затраты, φ — терминальный приз/штраф, f — закон эволюции системы.

Особые случаи.

Задача Лагранжа: φ ≡ 0 (только интегральный критерий).
Задача Майера: L ≡ 0 (только терминальный).
Задача быстродействия: J = T (минимизировать время).

В отличие от вариационного исчисления, u(t) может иметь разрывы и принимать значения только из U. При U = [u_min, u_max] оптимум часто лежит на границе — это даёт характерное «bang-bang» управление.

Принцип максимума Понтрягина

Гамильтониан: H(x, u, ψ, t) = L(x, u, t) + ψᵀ·f(x, u, t).

ψ ∈ ℝⁿ — вектор сопряжённых переменных, по смыслу — «теневая цена» состояния (ср. множители Лагранжа: ψᵢ показывает, насколько вырастет J, если бесплатно прибавить единицу к xᵢ).

ПМП (необходимые условия). При оптимальной паре (x*(t), u*(t)) существует ψ(t) ≠ 0 такая, что:

Уравнение состояния: ẋ* = ∂H/∂ψ = f(x*, u*, t).
Сопряжённое уравнение: ψ̇ = −∂H/∂x|_{x*, u*, ψ}.
Условие максимума: H(x*(t), u*(t), ψ(t), t) = max_{u ∈ U} H(x*(t), u, ψ(t), t) для почти всех t.
Условие трансверсальности: ψ(T) = ∂φ/∂x(x*(T), T) (если x(T) свободно).

Ключ — пункт 3: u* подбирается так, чтобы максимизировать H поточечно, с учётом ограничения u ∈ U. Это сильнее, чем стационарность ∂H/∂u = 0 классического исчисления.

Отличие от вариационного исчисления

Если U = ℝᵐ (нет ограничений) и H гладкая, max достигается во внутренней точке: ∂H/∂u = 0. Это эквивалентно EL.

При U = [a, b] оптимальное u* может оказаться на границе. Если H линейна по u: u* = b при коэффициенте при u положительном, u* = a при отрицательном, неопределённость на множестве переключения. Это bang-bang управление — резкие переключения между крайними режимами.

Пример управления ракетой. x = (положение, скорость), управление u = тяга ∈ [−F_max, F_max]. ПМП даёт u* = F_max·sign(ψ_v) — двигатель работает либо на полную мощность вперёд, либо назад. Это объясняет, почему пилот ракеты «дёргает» ручку газа, а не плавно регулирует тягу.

Численный пример: задача быстродействия

Перевести x = (q, v) из (1, 0) в (0, 0) за минимальное время при u ∈ [−1, 1]: q̇ = v, v̇ = u, минимизируем T.

Гамильтониан: H = −1 + ψ_q·v + ψ_v·u (минус 1 — потому что J = ∫1 dt и мы максимизируем −J). Сопряжённое: ψ̇_q = 0, ψ̇_v = −ψ_q. Значит ψ_q = const, ψ_v = −ψ_q·t + c — линейна по t, меняет знак не более одного раза. Условие максимума: u* = sign(ψ_v) ∈ {−1, +1}. Получается бэнг-бэнг с одним переключением.

Решая численно: оптимальная стратегия — тормозить u = −1 до v = −1 (на отрезке t ∈ [0, 1]), затем разгоняться u = +1 до остановки в (0, 0) (на t ∈ [1, 2]). Минимальное время T* = 2.

Реальные применения

Аэрокосмическая отрасль. Apollo Guidance Computer (1969) использовал упрощённую форму ПМП для оптимизации траекторий лунного посадочного модуля. Современные ракеты SpaceX Falcon 9 решают задачу мягкой посадки в реальном времени через выпуклую оптимизацию, основанную на ПМП.
Робототехника. Минимально-временное движение манипулятора между двумя положениями — задача оптимального управления с ограничениями на крутящий момент. Bang-bang управление часто оптимально, но требует сглаживания для механической устойчивости.
Автономный транспорт. Tesla Autopilot, Waymo решают задачи планирования траектории с учётом ограничений на ускорение и угол поворота. Используются модификации ПМП и MPC (Model Predictive Control).
Эпидемиология. Оптимальная стратегия вакцинации/локдаунов в COVID моделировалась как задача оптимального управления для SEIR-модели с управлением «жёсткостью» ограничений.

Задание. Перевести x = (q, v) из (0, 0) в (1, 0) за минимальное время при u ∈ [−1, 1] (q̇ = v, v̇ = u). (а) Запишите гамильтониан. (б) Из ПМП выведите вид оптимального u*(t). (в) Покажите, что оптимальная стратегия — u = +1 до момента переключения t_s, затем u = −1. (г) Найдите t_s и T*. (д) Нарисуйте фазовый портрет (q, v) с кривой переключения q = ±v²/2.