Шпаргалка
Оптимальное управление — все темы на одной странице
Вариационное исчисление
Задача Лагранжа, уравнение Эйлера-Лагранжа и классические проблемы
Постановка задачи вариационного исчисления → Уравнение Эйлера-Лагранжа → Классические примеры → Численный пример: минимизация ∫_0^1 (y² + y'²) dx, y(0) = 1, y(1) = 0 → Расширения → Реальные применения
- •Архитектура и инженерия. Форма арок и подвесных мостов выводится из минимизации потенциальной энергии — цепная линия y = a·cosh(x/a). Висячий мост Golden Gate, своды соборов проектируются по таким ...
- •Оптика. Принцип Ферма даёт законы отражения и преломления. Вся геометрическая оптика — следствие вариационного принципа.
- •Машинное обучение. Обучение моделей сводится к минимизации функционала ошибки — это «дискретный» аналог вариационной задачи. Регуляризация (например, Tikhonov) добавляет к функционалу штраф ∫(y')² ...
- •Финансы. Оптимальные траектории потребления и инвестирования (модель Мертона) находятся как экстремали соответствующего функционала ожидаемой полезности.
Представьте, что вы натягиваете верёвку между двумя гвоздями: какую форму она примет? Или: по какой кривой шарик скатится за минимальное время? В обычном дифференциальном исчислении мы ищем число x, минимизирующее функцию f(x). Здесь же неизвестное — целая функция y(x), а минимизировать надо «сум...
Задача: Найти функцию y(x) на отрезке [a, b], минимизирующую функционал J[y] = ∫_a^b F(x, y, y') dx при граничных условиях y(a) = y_a, y(b) = y_b.
Расшифруем символы. F(x, y, y') — лагранжиан, «плотность» интересующей нас величины: например, длины дуги, времени проезда, действия. x — независимая переменная (часто координата или время), y — искомая функция, y' = dy/dx — её производная. Интеграл J[y] суммирует вклад каждой точки траектории.
В физике обычно F = T − V (кинетическая энергия минус потенциальная), и J называют действием. В оптике F = n(x, y)·√(1 + y'²), где n — показатель преломления, а J — оптический путь.
Вторая вариация → Поле экстремалей и теорема Вейерштрасса → Связь с гамильтоновой механикой → Численный пример: min ∫₀¹ (y² + y'²) dx, y(0) = 1, y(1) = 2 → Реальные применения
- •Машиностроение. Форма зубьев шестерён выбирается так, чтобы передача усилий была плавной — это вариационная задача с условиями второго порядка на гладкость огибающей.
- •Финансовая математика. Оптимальная стратегия Мертона (потребление + инвестиции) проверяется на достаточность через анализ HJB и условий второго порядка для функции ценности.
- •Управление производством. Модели Хольта-Винтерса для оптимального графика производства используют квадратичные функционалы — условие Лежандра гарантирует выпуклость по управлению, а отсутствие сопр...
- •Численная оптимизация. Алгоритмы newton-type для функционалов используют гессиан δ²J — если он положительно определён на допустимых направлениях, шаг Ньютона корректно сходится к минимуму.
Уравнение Эйлера-Лагранжа — это лишь необходимое условие, аналог равенства f'(x) = 0 в обычном анализе. Но f'(x) = 0 одинаково обнуляется и в минимуме, и в максимуме, и в седле. Чтобы отличить настоящий минимум, нужны условия второго порядка. В вариационном исчислении ситуация ещё тоньше: мало то...
Аналогично разложению Тейлора f(x + ε) ≈ f(x) + εf'(x) + (ε²/2)f''(x), для функционала J[y + εη] раскладывается:
Формула для второй вариации: δ²J[y, η] = ∫_a^b [P(x)·η'² + Q(x)·η²] dx, где P = ∂²F/∂y'², Q = ∂²F/∂y² − d/dx(∂²F/∂y∂y').
Расшифровка: P — «коэффициент при квадрате производной возмущения», своего рода «эффективная масса». Q — «коэффициент при квадрате самого возмущения», эффективная упругость.
Принцип наименьшего действия → Примеры физических систем → Гамильтонова механика → Теорема Нётер → Реальные применения
- •Инвариантность по времени → закон сохранения энергии.
- •Инвариантность по сдвигу в пространстве → закон сохранения импульса.
- •Инвариантность по вращению → закон сохранения момента импульса.
- •Робототехника. Уравнения движения многозвенного манипулятора (5-7 степеней свободы) выводятся через лагранжиан — это намного проще, чем расписывать силы взаимодействия. Алгоритмы инверсной динамики...
- •Космическая навигация. Расчёты гравитационных манёвров (Voyager, New Horizons) используют гамильтонову механику и теорию возмущений. Орбита Луны, точки Лагранжа L1-L5 (где размещены телескопы James...
- •Молекулярная динамика. Симуляции белков (10⁵-10⁶ атомов) интегрируют гамильтоновы уравнения с шагом ~1 фс. Симплектические интеграторы (Verlet) сохраняют энергию на больших временах — критично для ...
- •Финансовая физика (econophysics). Модели рыночной динамики используют лагранжев формализм для описания «движения» цен под действием «потенциалов» спроса и предложения.
«Природа предпочитает простоту» — этот афоризм воплощается в принципе наименьшего действия, одном из самых глубоких принципов физики. Вместо того чтобы шаг за шагом «решать» уравнения движения для каждой точки траектории, природа «выбирает» всю траекторию сразу — ту, на которой действие минимальн...
Действие: S[q] = ∫_{t₁}^{t₂} L(q, q̇, t) dt, где L = T − V — лагранжиан системы (кинетическая энергия минус потенциальная). q = (q₁, ..., qₙ) — обобщённые координаты (например, углы, длины), q̇ — обобщённые скорости.
Принцип Гамильтона: Реальная траектория системы между фиксированными состояниями q(t₁) и q(t₂) — стационарная точка действия: δS = 0.
Здесь ∂L/∂q̇ᵢ = pᵢ — обобщённый импульс, ∂L/∂qᵢ — обобщённая сила. Уравнение читается «изменение импульса равно силе» — это абстрактное обобщение второго закона Ньютона.
Принцип максимума Понтрягина
Оптимальное управление в непрерывном времени, гамильтониан и сопряжённые переменные
Стандартная задача оптимального управления → Принцип максимума Понтрягина → Отличие от вариационного исчисления → Численный пример: задача быстродействия → Реальные применения
- •Уравнение состояния: ẋ = f(x(t), u(t), t), x(0) = x₀.
- •Управление: u(t) ∈ U ⊂ ℝᵐ — допустимое множество (часто компакт).
- •Краевые условия: ψ(x(T), T) = 0 (или x(T) свободно).
- •Задача Лагранжа: φ ≡ 0 (только интегральный критерий).
- •Задача Майера: L ≡ 0 (только терминальный).
- •Задача быстродействия: J = T (минимизировать время).
- •Аэрокосмическая отрасль. Apollo Guidance Computer (1969) использовал упрощённую форму ПМП для оптимизации траекторий лунного посадочного модуля. Современные ракеты SpaceX Falcon 9 решают задачу мяг...
- •Робототехника. Минимально-временное движение манипулятора между двумя положениями — задача оптимального управления с ограничениями на крутящий момент. Bang-bang управление часто оптимально, но треб...
- •Автономный транспорт. Tesla Autopilot, Waymo решают задачи планирования траектории с учётом ограничений на ускорение и угол поворота. Используются модификации ПМП и MPC (Model Predictive Control).
- •Эпидемиология. Оптимальная стратегия вакцинации/локдаунов в COVID моделировалась как задача оптимального управления для SEIR-модели с управлением «жёсткостью» ограничений.
В вариационном исчислении искомая функция y(x) гладкая и без ограничений. Но представьте космический корабль с тягой двигателя u(t): её величина не может превышать максимальной тяги, она может включаться-выключаться скачком. Классическое исчисление здесь бессильно — нужен новый аппарат. Теория оп...
Расшифровка. x(t) ∈ ℝⁿ — состояние системы (положение, скорость, остаток топлива). u(t) — управление (тяга, угол поворота руля, ставка налога). L — мгновенная полезность/затраты, φ — терминальный приз/штраф, f — закон эволюции системы.
В отличие от вариационного исчисления, u(t) может иметь разрывы и принимать значения только из U. При U = [u_min, u_max] оптимум часто лежит на границе — это даёт характерное «bang-bang» управление.
ψ ∈ ℝⁿ — вектор сопряжённых переменных, по смыслу — «теневая цена» состояния (ср. множители Лагранжа: ψᵢ показывает, насколько вырастет J, если бесплатно прибавить единицу к xᵢ).
Идея доказательства → Условие Эйлера как частный случай → Экономические применения → Инженерные применения
- •Оптимальная посадка. Falcon 9: задача состоит в минимизации расхода топлива при ограничениях на угол атаки, тягу, конечную скорость. Решается через convex relaxation ПМП в реальном времени.
- •HVAC-системы. Оптимальное расписание кондиционирования здания (минимизация расхода энергии при поддержании комфортной температуры) — классическая задача ОУ.
ПМП — нетривиальный результат: его доказательство не сводится к простому интегрированию по частям, как для EL. Понтрягин и его ученики (Болтянский, Гамкрелидзе, Мищенко) построили доказательство через «игольчатые вариации» и теорему отделимости выпуклых множеств. Применения охватывают экономику, ...
Игольчатые вариации (needle variations). Вместо гладких возмущений (как в EL) рассматриваем «иглу»: на коротком интервале [t₀, t₀ + ε] заменяем u*(t) на произвольное допустимое v ∈ U, в остальное время оставляем u*. Это порождает скачкообразное изменение состояния x(t) и, соответственно, целевой ...
Конус вариаций. Совокупность всех таких возмущений в пределе ε → 0 даёт конус достижимости в пространстве состояний. Если u* оптимально, конус достижимости и направление улучшения J должны быть «по разные стороны» некоторой гиперплоскости — иначе найдётся возмущение, улучшающее J.
Разделение конусов. Нормаль к разделяющей гиперплоскости — вектор ψ(t₀). Условие, что игольчатая вариация не улучшает J, эквивалентно H(x*(t₀), v, ψ(t₀), t₀) ≤ H(x*(t₀), u*(t₀), ψ(t₀), t₀) для всех v ∈ U. Это и есть условие максимума.
Задача с конечным горизонтом → Задача с бесконечным горизонтом → Линейно-квадратические задачи (LQR) → Численный пример: LQR для скалярной системы → LQR для инвертированного маятника → Реальные применения
- •Автопилот самолёта. Каждый из контуров (тангаж, крен, рыскание) спроектирован как LQR около режима полёта. Для разных скоростей/высот вычисляется набор K, между которыми происходит «gain scheduling».
- •Стабилизация Сегвея/двухколёсного робота. Стандартный LQR для модели перевёрнутого маятника на колёсах.
- •Управление электростанцией. Поддержание стабильной частоты (50 Гц) при колебаниях нагрузки — LQR-управление турбинами.
- •Финансы. Оптимальная стратегия торговли с квадратичными издержками рынка (Almgren-Chriss) сводится к LQR — управление = скорость торговли.
Инженерные задачи (посадка ракеты, маневр спутника) обычно имеют конечный горизонт — критерий привязан к моменту окончания. Экономические задачи (потребление, рост) часто бесконечны — мы хотим оптимизировать благосостояние «навсегда». Эти два класса требуют различных условий трансверсальности и п...
Условие трансверсальности зависит от того, как заданы граничные условия в момент T.
Случай 1: фиксированы x(0) и x(T). Сопряжённые переменные ψ(0), ψ(T) определяются из решения краевой задачи (x, ψ).
Случай 2: x(T) свободно, T фиксировано. Дополнительное условие: ψ(T) = ∂φ/∂x(x(T), T). Если терминального штрафа нет (φ = 0), то ψ(T) = 0.
Динамическое программирование Беллмана
Принцип оптимальности, уравнение Беллмана и функция ценности
Принцип оптимальности Беллмана → Уравнение Гамильтона-Якоби-Беллмана (HJB) → Верификационная теорема → Численный пример: LQR с конечным горизонтом → Связь с ПМП → Реальные применения
- •ПМП: краевая задача (forward для x, backward для ψ) — эффективно при малом числе состояний.
- •HJB: PDE для V*(x, t) — эффективно при сложных ограничениях, но страдает от проклятия размерности при большом dim(x).
- •Финансы. Задача Мертона (оптимальное потребление и инвестиции) решена явно через HJB в 1969 г.: получена политика «инвестировать постоянную долю π* = (μ − r)/(σ²·γ) в рисковые активы».
- •Управление запасами. Модели Скэрфа и Эрроу-Хэрриса используют HJB для нахождения оптимальной политики (s, S): «если запас < s, заказать до S».
- •Реклама и маркетинг. Динамическое выделение бюджета между каналами рекламы — HJB-задача с эмпирически калиброванными моделями отклика.
- •Reinforcement Learning. Уравнение Беллмана — основа Q-learning, DQN, AlphaGo. В каждом эпизоде агент обновляет V (или Q) согласно дискретной версии HJB.
Ричард Беллман в 1950-х предложил радикально иной взгляд на оптимизацию: не «найти всю траекторию сразу» (как в ПМП), а «решать задачу рекурсивно — справа налево». В основе лежит один глубокий принцип: оптимальный план «запоминает» только текущее состояние, а не как мы в него пришли. Это принцип ...
Формулировка: «Оптимальная политика обладает тем свойством, что какие бы ни были начальное состояние и начальное решение, последующие решения должны составлять оптимальную политику относительно состояния, возникшего в результате первого решения.»
Проще: любая «хвостовая часть» оптимальной траектории сама оптимальна для соответствующей подзадачи.
Формально. Определим оптимальную функцию ценности: V*(x, t) = max_{u(·) на [t,T]} [∫_t^T L(x, u, s) ds + φ(x(T))], где x(t) = x.
Дискретное динамическое программирование → Численный пример: задача о ранце во времени → Проклятие размерности → Приближённое ДП → Прямые методы траекторной оптимизации → Сравнение подходов → Реальные применения
Определения
| Подход | Преимущества | Недостатки |
|---|---|---|
| ДП (VFI/PFI) | Глобальный оптимум, обратная связь u*(x, t) | Проклятие размерности |
| ПМП + краевая задача | Эффективно для малых dim | Локальный оптимум, нет обратной связи |
| Прямые методы (NLP) | Большие задачи, ограничения | Локальный оптимум, открытое управление |
| Approximate DP / RL | Сложные среды, нейросети | Нужна тонкая настройка, гарантий нет |
- •Mars Curiosity & Perseverance. Планирование маршрута марсохода: дискретное ДП на сетке высот (DEM-карты с орбиты), стоимость — энергия + риск опрокидывания.
- •Управление запасами Amazon. Многоуровневая модель (поставщик → склад → региональный центр → клиент) — гигантское ДП с приближённой функцией ценности.
- •Беспилотный автомобиль. MPC (Model Predictive Control) с горизонтом 3-5 секунд: на каждом шаге решается NLP для выбора траектории. Скорость решения 10-50 Гц.
- •Электросети. Оптимальное управление зарядкой электромобилей в умной сети — стохастическое ДП с сотнями тысяч агентов, решается через приближённые методы.
Аналитические решения задач оптимального управления возможны лишь для специальных структур (LQR, задача Рамсея с Кобб-Дугласом, задача Мертона). Большинство практических задач — нелинейные, многомерные, с дискретными решениями — приходится решать численно. Существует два больших семейства методов...
Задача: max Σ_{t=0}^{T−1} r(x_t, u_t) + V_T(x_T) при x_{t+1} = f(x_t, u_t), x_t ∈ S, u_t ∈ U.
Здесь S — множество состояний (например, |S| = 100), U — множество действий, r — мгновенная награда.
Алгоритм обратной индукции. 1. Инициализация: V_T(x) задано для всех x ∈ S (терминальная ценность). 2. Для t = T−1, T−2, ..., 0 и каждого x ∈ S: V_t(x) = max_{u ∈ U} [r(x, u) + V_{t+1}(f(x, u))]. 3. Оптимальная политика: u*(t, x) = argmax_u [r(x, u) + V_{t+1}(f(x, u))].
Базовая модель накопления капитала (стохастический Рамсей) → Численный пример: модель Рамсея → Задача исчерпаемых ресурсов (правило Хотеллинга) → Неоклассическая модель роста: количественный анализ (RBC) → Реальные применения
- •Дисперсия лог-ВВП: модель 1.7%, данные 1.7%. ✓
- •Дисперсия инвестиций / дисперсия потребления: ~10, данные ~6. Близко.
- •Корреляция выпуска и труда: 0.97, данные 0.86. Завышена.
- •Центральные банки. ФРС, ЕЦБ, Банк России используют DSGE-модели (среднемасштабные — 30-100 переменных), решаемые через VFI или линеаризацию, для прогнозирования и оценки политики (Smets-Wouters, FR...
- •Страховые компании и пенсионные фонды. Долгосрочные модели asset-liability management — стохастическое ДП с экономическими сценариями. Аналог задачи Мертона на 20-50 лет.
- •Корпоративные финансы. Решения о капитальных инвестициях с необратимостью — задача оптимальной остановки, классический пример ДП (Dixit-Pindyck «Investment Under Uncertainty»).
- •Налоговая политика. Оптимальное налогообложение в моделях Айягари с гетерогенными агентами — гигантское ДП с распределением по богатству, решается приближёнными методами (perturbation, EGM).
Динамическое программирование — стандартный язык современной макроэкономики и бизнес-стратегии. Модели Рамсея, Стокли-Лукаса, RBC, Бьюлеа, Айягари — все формулируются через рекурсивную задачу. Численные методы (value function iteration, policy function iteration, Endogenous Grid Method) позволяют...
Рекурсивная задача: V(k) = max_{c ∈ [0, f(k)]} [u(c) + β·V(f(k) − c + k·(1 − δ))],
где k — капитал, c — потребление, f(k) = k^α — производство (функция Кобба-Дугласа), δ — норма амортизации, β = 1/(1 + ρ) — коэффициент дисконтирования (ρ — норма временного предпочтения), u(c) = c^{1−σ}/(1 − σ) — функция полезности с эластичностью замещения 1/σ.
Метод итерации функции ценности (Value Function Iteration, VFI): 1. Дискретизуем k на сетку {k_1, ..., k_N}, например N = 500 точек. 2. Инициализация: V_0(k_i) = 0 для всех i. 3. На итерации n+1: V_{n+1}(k_i) = max_{c} [u(c) + β·V_n(k')], где k' = f(k_i) − c + k_i·(1 − δ). Интерполируем V_n между...
Линейное управление и устойчивость
Линейные системы, управляемость, наблюдаемость и ПИД-регуляторы
Линейные стационарные системы → Управляемость → Численный пример: двойной интегратор → Контрпример: неуправляемая система → Наблюдаемость → Канонические формы → Наблюдатель Люенбергера → Численный пример: наблюдатель для двойного интегратора → Реальные применения
- •GPS-приёмники. Состояние x = (положение, скорость, ошибка часов), измерения — псевдодальности до спутников. Наблюдатель (расширенный фильтр Калмана) восстанавливает позицию с точностью 5-10 метров.
- •Энергосистемы. State estimation в SCADA: измерения напряжений и токов в узлах сети → оценка состояния всей сети (тысячи переменных) → диспетчерское управление.
- •Автомобильная электроника. Оценка состояния заряда батареи (SoC) электромобиля по току и напряжению — наблюдатель Люенбергера или фильтр Калмана.
- •Биомедицинские приборы. Глюкометры непрерывного мониторинга оценивают «истинную» концентрацию глюкозы в крови по показаниям подкожного датчика — задача наблюдаемости.
Прежде чем «оптимально» управлять системой, нужно ответить на два фундаментальных вопроса: можно ли вообще привести её в нужное состояние? И можно ли понять, в каком состоянии она находится, по доступным измерениям? Эти вопросы — управляемости и наблюдаемости — решаются классическими критериями К...
Стандартная форма (state-space representation): ẋ = A·x + B·u, y = C·x + D·u.
Здесь x ∈ ℝⁿ — вектор состояния (положение, скорость, температуры, токи), u ∈ ℝᵐ — вход (управление), y ∈ ℝᵖ — выход (измерения). Матрицы A (n×n), B (n×m), C (p×n), D (p×m) описывают физику системы. Часто D = 0.
Матричная экспонента: e^{At} = Σ_{k=0}^∞ (At)^k/k! — фундаментальная матрица. Вычисляется через собственное разложение A = V·Λ·V⁻¹: e^{At} = V·diag(e^{λ_i·t})·V⁻¹.
Структура ПИД-регулятора → Синтез ПИД: эмпирические методы → Передаточные функции → Синтез в частотной области → Численный пример: ПИД для G(s) = 1/(s·(s+1)·(s+5)) → Анти-windup и практические трюки → Реальные применения
- •Пропорциональная (P). u_P = K_P·e. Чем больше отклонение, тем сильнее реакция. Снижает установившуюся ошибку, но не устраняет её полностью (всегда остаётся «статическая ошибка»). Большой K_P → быст...
- •Дифференциальная (D). u_D = K_D·ė. Реагирует на скорость изменения ошибки → уменьшает перерегулирование, добавляет «демпфирование». Чувствительна к шуму измерений (производная шума огромна). Часто ...
- •Phase Margin (PM, фазовый запас) ≥ 45° — допустимое изменение фазы до потери устойчивости.
- •Gain Margin (GM, запас усиления) ≥ 6 дБ (фактор 2) — допустимое изменение усиления.
- •Bandwidth (полоса пропускания) — частота, на которой |G_замкнутая| = −3 дБ.
- •Промышленная автоматизация. Регуляторы температуры в печах (плавление стали, обжиг керамики), давления (компрессоры, насосы), уровня (резервуары, котлы) — почти всегда ПИД. Stratегия настройки: «80...
- •Бытовая техника. Терморегуляторы холодильников, утюгов, мультиварок — упрощённые ПИ. Современные котлы (Vaillant, Buderus) — ПИД с адаптивной настройкой.
- •Аэрокосмическая. Внутренние контуры автопилота самолёта (поддержание тангажа, крена, рыскания) — каскадные ПИД. Внешние контуры (траектория, высота) — более сложные регуляторы поверх ПИД.
- •Робототехника. Управление каждым суставом манипулятора — ПИД (часто с feedforward-членом для компенсации гравитации). Уровень: 1 ПИД на сустав, 5-7 суставов на руку — итого 5-7 параллельных ПИД.
ПИД-регулятор — самый распространённый промышленный регулятор: по разным оценкам, более 90% контуров регулирования в индустрии используют ПИД или его модификации. Он прост, требует минимальных знаний о модели объекта, и при правильной настройке обеспечивает приемлемое качество для большинства зад...
где e(t) = r(t) − y(t) — ошибка слежения (разность между уставкой r и фактическим выходом y), а K_P, K_I, K_D — коэффициенты регулятора.
Метод Зиглера-Никольса (1942), вариант 1 — реакция на ступеньку. 1. Подайте u(t) = 1 (ступенька), запишите y(t). 2. По графику оцените L (запаздывание — время до начала реакции) и T (постоянная времени — время до 63% установившегося значения). 3. Установите: K_P = 1.2·T/L, T_I = 2·L (T_I = K_P/K_...
Метод Зиглера-Никольса, вариант 2 — предельный цикл. 1. Установите K_I = K_D = 0, увеличивайте K_P до тех пор, пока система не войдёт в незатухающие колебания. 2. Запомните K_cr (критическое усиление) и T_cr (период колебаний). 3. Для ПИД: K_P = 0.6·K_cr, T_I = 0.5·T_cr, T_D = 0.125·T_cr.
Понятия устойчивости → Прямой метод Ляпунова → Поиск функции Ляпунова → Примеры → Теорема Ла-Салля (LaSalle's invariance principle) → Control Lyapunov Functions (CLF) → Численный пример: стабилизация инвертированного маятника → Реальные применения
- •Линейные системы: V(x) = xᵀ·P·x с P > 0. V̇ = xᵀ·(AᵀP + PA)·x. Для V̇ < 0 нужно Aᵀ·P + P·A = −Q < 0. Это уравнение Ляпунова: при устойчивой A для любой Q > 0 решение P > 0 существует и единственно.
- •Механические системы: V = T + V_potential — полная энергия, если она положительна.
- •Системы с диссипацией: часто V = «энергия», V̇ ≤ 0.
- •Энергосистемы. Анализ синхронной устойчивости генераторов после короткого замыкания: функции Ляпунова на основе кинетической + потенциальной энергии генераторов. Используется для определения «criti...
- •Робототехника. Adaptive control с гарантиями устойчивости через CLF: доказывается, что робот достигает желаемой траектории даже при неизвестных параметрах (масса груза, трение).
- •Биология. Анализ устойчивости моделей популяций (Лотка-Вольтерра, эпидемические модели): функция Ляпунова показывает, к какому равновесию (выживание/вымирание) сходится система.
- •Машинное обучение. Анализ сходимости градиентного спуска: функция потерь L(θ) — функция Ляпунова, L̇ = −||∇L||² ≤ 0 для GD с малым шагом.
Линейные системы устойчивы, если все собственные значения матрицы A лежат в левой полуплоскости — простой и удобный критерий. Но реальные системы часто нелинейны: маятник, химический реактор, электрическая сеть, нейронная сеть. Александр Ляпунов в 1892 году предложил универсальный метод анализа у...
Система: ẋ = f(x), f(0) = 0 (начало координат — точка равновесия). Без потери общности рассматриваем устойчивость нуля — другие равновесия сводятся к нулю заменой переменных.
Устойчивость по Ляпунову. Равновесие x = 0 устойчиво, если для любого ε > 0 существует δ > 0: ||x(0)|| < δ → ||x(t)|| < ε для всех t ≥ 0. Малые возмущения остаются малыми.
Асимптотическая устойчивость. Устойчиво И x(t) → 0 при t → ∞. Возмущения не только остаются малыми, но и затухают.
Стохастическое оптимальное управление
Стохастические системы, фильтр Калмана и стохастическое ДП
Линейная стохастическая система → Алгоритм фильтра Калмана → Свойства → Численный пример: отслеживание объекта → Нелинейные расширения → Реальные применения
- •x̂_{t|t−1} = A·x̂_{t−1|t−1} + B·u_{t−1} (среднее по динамике).
- •P_{t|t−1} = A·P_{t−1|t−1}·Aᵀ + Q (ковариация: динамика + шум).
- •Невязка (innovation): r_t = y_t − C·x̂_{t|t−1}.
- •Калман-гэйн: K_t = P_{t|t−1}·Cᵀ·(C·P_{t|t−1}·Cᵀ + R)⁻¹.
- •Обновлённая оценка: x̂_{t|t} = x̂_{t|t−1} + K_t·r_t.
- •Обновлённая ковариация: P_{t|t} = (I − K_t·C)·P_{t|t−1}.
- •GPS и инерциальная навигация (INS). Объединение акселерометров (короткое время — точно, дрейф) и GPS (раз в секунду — точно, без дрейфа) через EKF. Точность 1-10 м в смартфоне, < 0.1 м в авиации.
- •Apollo (1969) и Space Shuttle. Навигация к Луне рассчитывалась на бортовом компьютере фильтром Калмана. Программа MIT (Battin), руководитель — Kalman лично консультировал.
- •Финансы. Оценка скрытой волатильности (stochastic volatility models) — нелинейный фильтр Калмана. Trading-стратегии market-making используют KF для оценки fair value.
- •Робототехника и SLAM. Simultaneous Localization and Mapping: робот строит карту и одновременно локализуется в ней. EKF-SLAM, GraphSLAM — основа автономных пылесосов Roomba, складских роботов Amazon...
- •Биомедицина. Носимые ECG-мониторы с фильтрацией артефактов движения. Оценка сатурации кислорода в пульсоксиметрах.
Реальные системы подвержены случайным возмущениям (порывы ветра, тепловой шум, неучтённая динамика), а измерения — шуму датчиков. Детерминированные модели и наблюдатели Люенбергера здесь недостаточны: нужно явно учитывать вероятностную природу неопределённости. Фильтр Калмана, опубликованный Рудо...
Дискретная модель: x_{t+1} = A·x_t + B·u_t + w_t (системный шум), y_t = C·x_t + v_t (шум измерений).
Шумы: w_t ~ N(0, Q), v_t ~ N(0, R), независимы между собой и от x_t. Q (n×n), R (p×p) — ковариационные матрицы.
Задача: на основе всех измерений y_0, y_1, ..., y_t восстановить наилучшую оценку x̂_{t|t} = E[x_t | y_0, ..., y_t].
Стохастическое уравнение Беллмана → Численный пример: задача складского управления → Принцип отделения в LQG → Стохастический MPC (Model Predictive Control) → Численный пример: LQG для двойного интегратора → Обучение с подкреплением (RL) — современное продолжение → Реальные применения
- •K — матрица усиления LQR из детерминированной задачи (решение алгебраического Риккати с A, B, Q, R).
- •x̂_{t|t} — оценка состояния от фильтра Калмана с матрицами A, C, W, V.
- •Естественно учитывает ограничения на u и x.
- •Адаптивен: пересчитывает план при изменении условий.
- •Применим к нелинейным системам.
- •Сценарный подход: генерируем M = 100 сценариев w^{(i)}_{0:N}, решаем задачу для каждого, выбираем робастное.
- •Tube MPC: проектируем «трубку» допустимых траекторий, гарантирующую выполнение ограничений при всех допустимых w.
- •Chance-constrained MPC: P(C·x_t ≤ d) ≥ 1 − ε — вероятностные ограничения.
- •Q-learning: Q(x, u) ← Q(x, u) + α·[r + β·max_{u'} Q(x', u') − Q(x, u)].
- •DQN (Mnih 2015): Q аппроксимируется нейронной сетью, обученной на батчах из replay buffer.
- •Actor-Critic, PPO, SAC: параллельно обучают политику и V/Q.
- •HVAC и умные здания. Стохастический MPC балансирует прогноз погоды, цены электроэнергии и комфорт. Экономия 15-30% энергии.
- •Управление портфелем. Динамическое распределение активов с учётом стохастических доходностей — задача LQG-типа в линеаризации; в нелинейной форме — стохастический контроль с HJB.
- •Управление производственными процессами (нефтепереработка, химия). MPC промышленный стандарт: системы Honeywell APC, AspenTech DMCplus, ExxonMobil PIC. Тысячи установок.
- •Автономные автомобили. Tesla Autopilot, Waymo используют MPC в реальном времени для планирования маневров. Учёт неопределённости в движении других машин — стохастический MPC.
- •Энергетика. Оптимальное управление электростанцией с возобновляемыми источниками: стохастический спрос, цены, солнечная/ветровая генерация — задача стохастического ДП.
Когда система случайна, оптимальное управление само становится «функцией от случайной истории». Стохастическое ДП обобщает уравнение Беллмана для случая случайных переходов и дисконтированных ожидаемых наград — это математический фундамент обучения с подкреплением (RL). Особый случай — LQG (Linea...
Задача: max E[Σ_{t=0}^T β^t·r(x_t, u_t)] при x_{t+1} = f(x_t, u_t, w_t), w_t ~ p(w).
Стохастическое уравнение Беллмана: V_t(x) = max_{u ∈ U} [r(x, u) + β·E_{w}[V_{t+1}(f(x, u, w))]].
Обратная индукция: V_T(x) = r_T(x) (терминальный). Для t = T−1, ..., 0: V_t(x) = max_u [r(x, u) + β·Σ_{x'} P(x' | x, u)·V_{t+1}(x')].
Источники неопределённости → Меры робастности → H∞ управление → μ-синтез → Адаптивное управление → Численный пример: маятник с неизвестной длиной → Реальные применения
- •Авиация. Все пассажирские самолёты Airbus A320-A380 проектируются по принципам H∞/μ-синтеза, включая систему «control law switching» при отказах. F-16, F-22 — gain-scheduled регуляторы для разных р...
- •Жёсткие диски и приводы. Управление позиционированием головки на дорожку — высокоскоростной H∞ регулятор с учётом гибкости подвеса. Точность 1-10 нм.
- •Атомные реакторы. Управление мощностью с гарантиями устойчивости при изменении температуры, выгорании топлива — H∞ синтез.
- •Производство полупроводников. Литографические машины ASML EUV — управление позиционированием с точностью < 1 нм при 10g ускорениях. Робастный синтез — критический компонент.
- •Автомобильный круиз-контроль. Адаптивные регуляторы (ACC) учитывают изменение массы (груз, пассажиры) и наклон дороги.
LQR/LQG предполагают, что мы знаем точную модель системы. Но реальные параметры (масса, жёсткость, сопротивление) известны лишь приблизительно: производственные допуски, износ, температурные колебания. Кроме того, реальные системы имеют невоспринятую динамику (например, гибкость металла, которую ...
Параметрические. Конкретные параметры модели неточны: масса m ∈ [0.9, 1.1] кг, жёсткость пружины k ∈ [k₀(1 − 0.2), k₀(1 + 0.2)]. Описывается интервалами или вероятностно.
Структурные (немоделированная динамика). Действительная передаточная функция G_real(s) = G_nominal(s)·(1 + Δ(s)), где Δ — неизвестное «возмущение», обычно ограниченное по норме ||Δ||_∞ < γ. Например, гибкие моды конструкции, которые проявляются на высоких частотах.
Возмущения и шумы. Внешние силы (порывы ветра, неровности дороги), шумы датчиков. Описываются как стохастические процессы или ограниченные сигналы (||d||₂ ≤ D).