Оптимизация в функциональных пространствах

Мотивация: минимизация функционалов

Классическая оптимизация минимизирует функцию на ℝⁿ. Бесконечномерная оптимизация минимизирует функционал J: H → ℝ — «функцию от функции». Нахождение оптимальной траектории, минимизация длины кривой, обратные задачи восстановления сигнала — всё это бесконечномерная оптимизация. Она объединяет вариационное исчисление, регуляризацию и машинное обучение.

Выпуклая оптимизация в гильбертовых пространствах

Выпуклый функционал J: H → ℝ: J(λu + (1−λ)v) ≤ λJ(u) + (1−λ)J(v) при λ ∈ [0,1].

Теорема существования: Если J выпуклый, нижнеполунепрерывный (НПН: lim inf J(uₙ) ≥ J(u) при uₙ ⇀ u) и коэрцитивный (J(u) → +∞ при ‖u‖ → ∞), то min достигается. При строгой выпуклости — единственность.

Условие оптимальности: J'(u) = 0 в смысле производной Фреше.

Производная Фреше: J'(u) ∈ H* такой, что J(u+h) = J(u) + J'(u)(h) + o(‖h‖). В гильбертовом пространстве: J'(u) ≡ ∇J(u) ∈ H через теорему Рисса.

Градиентный спуск: uₙ₊₁ = uₙ − α·∇J(uₙ). Сходится при α < 2/L (L — константа Липшица ∇J).

Регуляризация Тихонова

Обратная задача: Найти u из y = Au + δ (зашумленные данные). Некорректна: малый шум → большая ошибка.

Тихоновская регуляризация: min_{u} ‖Au − y‖² + α‖u‖². Аналитическое решение: u_α = (AA + αI)^{-1}Ay.

Смысл α: малый α → близко к «грубому» инверсному решению; большой α → гладкое «зарегуляризованное» решение. Оптимальный выбор: принцип невязки Морозова: ‖Au_α − y‖ ≈ уровень шума ‖δ‖.

Связь с ML: Ridge regression = регуляризация Тихонова. Lasso (L1) → разреженные решения. Total Variation → сохранение резких границ (обработка изображений).

Численный пример

Задача: Минимизировать J(u) = ∫₀¹[(u'(x))² + (u(x) − f(x))²]dx при u(0)=u(1)=0, f(x) = sin(πx).

Шаг 1. J = ‖u'‖²_{L²} + ‖u−f‖²_{L²}. Ищем стационарность: вычислим J'(u)(h) = 0 для всех h ∈ H₀¹.

Шаг 2. dJ/dε|_{ε=0} J(u+εh) = 2∫u'h'dx + 2∫(u−f)h dx = 0 для всех h. Интегрируем по частям: 2∫[−u'' + (u−f)]h dx = 0 → уравнение Эйлера–Лагранжа: −u'' + u = f = sin(πx).

Шаг 3. Решаем ОДУ: −u'' + u = sin(πx), u(0) = u(1) = 0. Частное решение: uₚ = A sin(πx) → Aπ² sin(πx) + A sin(πx) = sin(πx) → A = 1/(π²+1).

Шаг 4. Общее: u = C₁eˣ + C₂e^{-x} + sin(πx)/(π²+1). Условия u(0)=0: C₁+C₂=0. u(1)=0: C₁e + C₂/e + sin(π)/(π²+1) = 0 → C₁(e−1/e) = 0 → C₁ = 0.

Шаг 5. Решение: u(x) = sin(πx)/(π²+1) ≈ 0.092·sin(πx).

Интерпретация: регуляризация сглаживает f, уменьшая в π²+1 ≈ 10.87 раз. Без штрафа u = f = sin(πx). Штраф «торгует» точностью на гладкость.

Шаг 6. J(u) = ‖u'‖² + ‖u−f‖² = π²/(π²+1)² + (1 − 1/(π²+1))² ≈ 0.086 + 0.840 = 0.926. При α = 0 (без регуляризации): J(f) = ‖f'‖² + 0 = π²/2 ≈ 4.93 — большая «шероховатость».

Реальное приложение

Медицинская томография (МРТ, КТ): восстановление изображения из проекций — обратная задача. Регуляризация Тихонова или Total Variation даёт чёткие изображения. Total Variation: min ‖∇u‖_{L¹} — сохраняет резкие границы органов, используется в каждом МРТ-аппарате.

Дополнительные аспекты

Оптимизация в функциональных пространствах ищет минимум J(u) на бесконечномерном множестве функций (например, формы крыла, профиля управления, распределения параметров). Методы: градиент Фреше J'(u), сопряжённый метод (adjoint method) для эффективного вычисления градиента в терминах решения сопряжённого УЧП, проекционные методы для ограничений. Существование минимума гарантирует прямой метод вариационного исчисления при выполнении полунепрерывности и коэрцитивности (теоремы Тонелли). На практике это лежит в основе оптимального управления (Pontryagin–Bellman), shape optimization (форма самолёта, антенны, имплантата), data assimilation в метеорологии (4DVar), inverse problems в медицинской визуализации (CT, MRI reconstruction).

Связь с другими разделами математики

Оптимизация в функциональных пространствах тесно переплетена с теорией дифференциальных уравнений. Задача на минимум часто эквивалентна граничной задаче для эллиптических или параболических уравнений; классический пример — принцип Дирихле и его развитие в работах Гильберта и Минковского. Теорема Лакса–Мильграма в гильбертовых пространствах дает существование и единственность решения вариационной задачи, а через формализм слабых решений напрямую связывает оптимизацию с эллиптической теорией PDE.

С топологией и функциональным анализом связь обеспечивают теоремы компактности и слабой сходимости. Используются результаты Банаха–Алаоглу и Реля–Кондрашова: слабая компактность позволяет извлекать слабо сходящиеся подпоследовательности минимизирующих последовательностей, что является техническим ядром «прямого метода» вариационного исчисления. Работы Эде Штейнгауза, Мазура, Орлича о структуре банаховых пространств повлияли на формулировку оптимизационных принципов в пространствах Соболева.

К теории вероятностей мост строится через стохастическое вариационное исчисление и стохастический градиентный спуск. Функционалы ожидаемого риска в статистическом обучении минимизируются по распределениям, а не только по отдельным функциям; здесь используются идеи Гельфанда–Минлоса о мерах на линейных топологических пространствах. Стохастический градиентный спуск Роббинса–Монро интерпретируется как метод оптимизации функционалов математического ожидания.

Алгебра входит через дуальность и субдифференциалы: теория выпуклой дуальности Фенхеля–Рокафеллара использует линейные функционалы и двойственные пространства, а в задачах с ограничениями активно применяется теория лагранжианов и множителей Каруша–Куна–Таккера, обобщенных на бесконечномерные пространства.

Наконец, численные методы PDE базируются на дискретизации вариационных задач: метод конечных элементов (Курант, Чижелли, Бренер–Скотт) строит конечномерные подпространства, на которых решается приближенная вариационная задача, а сходимость обосновывается абстрактными теоремами Цезарьо–Ченчона–Стрампе об аппроксимации.

Историческая справка и развитие идеи

Корни оптимизации в функциональных пространствах уходят в работы Эйлера и Лагранжа XVIII века по вариационному исчислению (мемуары Берлинской и Парижской академий). Эйлер в 1744 году в «Methodus inveniendi lineas curvas…» сформулировал дифференциальные уравнения для экстремалей функционалов, а Лагранж к 1760‑м годам придал этим идеям систематическую форму. В конце XIX – начале XX века Гильберт и Мининковский ввели понятие гильбертова пространства, что позволило рассматривать функционалы энергии как квадратичные формы. Гильберт в лекциях 1900‑х годов о принципе Дирихле фактически заложил основы нелинейной оптимизации в бесконечномерном случае.