Модуль IV·Статья III·~4 мин чтения
Теория обучаемости и выпуклость нейросетей
Применения в машинном обучении
Превратить статью в подкаст
Выберите голоса, формат и длину — AI запишет аудио
Теория обучаемости и выпуклость нейросетей
Когда алгоритм обучения «работает»?
Машинное обучение кажется эмпирической дисциплиной: попробовал — получилось. Но за кулисами существует математическая теория, объясняющая, почему и когда обучение даёт обобщение на новые данные. VC-теория и PAC-обучаемость — это строгие рамки. Выпуклые задачи имеют особые гарантии: независящие от размерности пространства, зависящие только от «сложности» класса гипотез.
VC-размерность
Разбиение (shattering): набор точек S «разбит» гипотезным классом H, если для любой разметки точек ∈ {−1, +1} существует гипотеза h ∈ H, правильно классифицирующая все точки.
VC-размерность vc(H) = максимальное число точек, которое H может разбить.
Примеры:
- Линейные классификаторы в ℝⁿ: vc = n+1. В ℝ² линейный классификатор разбивает любые 3 точки (в общем положении), но не любые 4.
- RBF-ядро: vc = ∞ (может разбить любое число точек). Но SVM с RBF ядром обобщает через маржу!
- Нейросеть с W параметрами: vc ≈ W log W.
Основная теорема VC: конечная vc(H) ↔ PAC-обучаемость (Probably Approximately Correct). Число примеров для (ε, δ)-обучения: N = O((vc(H) + log(1/δ)) / ε²).
Rademacher-сложность для выпуклых функций
Rademacher-сложность — более современная и точная мера, чем VC:
R_N(F) = E_{σ,x} [sup_{f ∈ F} (1/N) Σᵢ σᵢ f(xᵢ)]
где σᵢ — независимые равновероятные ±1 (Rademacher переменные).
Теорема: с вероятностью ≥ 1−δ:
E[f(x)] − (1/N) Σᵢ f(xᵢ) ≤ 2R_N(F) + O(√(log(1/δ)/N))
Для классов с ограниченной нормой ‖w‖ ≤ B и ‖xᵢ‖ ≤ ρ:
R_N(F) ≤ Bρ/√N
Следствие: обобщение ≤ O(Bρ/√N) — не зависит от размерности пространства! Только маржа (1/B) и норма данных (ρ) имеют значение.
Выпуклость нейросетей при сверхпараметризации
Нейросети — невыпуклые задачи. Почему же SGD работает?
Теорема (Kawaguchi, 2016): линейные сети
Для нейросети без нелинейности (f(x) = WₗWₗ₋₁...W₁x):
- Все критические точки (∇L = 0) — либо глобальные минимумы, либо сёдловые точки
- Нет «плохих» локальных минимумов
Для ReLU-сетей достаточной ширины:
Теорема: если ширина скрытого слоя m ≥ N (число обучающих примеров), то: с высокой вероятностью по случайной инициализации, SGD найдёт глобальный минимум обучающей ошибки.
Интуиция: при перепараметризации (m >> N) «плохих» локальных минимумов нет — вес почти случайного блуждания достаточно, чтобы найти решение.
Неявная регуляризация SGD
Феномен implicit bias: SGD не просто ищет любой глобальный минимум — он находит минимум с минимальной нормой.
Теорема: SGD (и gradient flow) для нейросетей сходится к решению минимальной ‖w‖₂-нормы среди всех глобальных минимумов (при линейных сетях).
Это «выпуклость по умолчанию»: SGD неявно решает min ‖w‖² s.t. Xw = y — задачу Ridge-регрессии без явного штрафа!
Двойное убывание (Double Descent)
Классическое машинное обучение: при увеличении числа параметров ошибка сначала убывает (меньше смещение), потом растёт (больше дисперсия) — «кривая U-образной ошибки».
Феномен двойного убывания (Belkin et al., 2019): при перепараметризации (число параметров > число данных) ошибка снова начинает убывать!
- Зона интерполяции: при M < N — классическое обучение
- Порог интерполяции: M = N — ошибка максимальна
- Зона сверхпараметризации: M >> N — ошибка снова убывает
Причина: SGD в зоне сверхпараметризации находит «плоские» минимумы (малый градиент ∇²L) с хорошим обобщением, а не «острые» (большой ∇²L) с плохим.
Полный пример: сравнение алгоритмов
Задача: классификация MNIST (60000 обучающих, 784 признака, 10 классов).
| Метод | Точность | Число параметров | Гарантии |
|---|---|---|---|
| Логистическая регрессия | 92% | 7840 | Выпуклая, глобальный оптимум |
| SVM (RBF) | 98% | ~10000 опорных векторов | Выпуклая двойственная |
| 3-слойная нейросеть | 98.5% | 100000 | Нет строгих гарантий, работает |
| ResNet-50 | 99.7% | 25 млн | Эмпирически надёжно |
Выпуклые модели дают строгие гарантии, но ограничены в выразительности. Нейросети мощнее, но теория объясняет их работу лишь частично. Задача математиков и ML-исследователей — строить более точные теоретические гарантии для реальных нейросетей.
Двойной спуск и переобучение
Классическая теория обучения предсказывает рост ошибки на тесте при росте сложности модели — кривая «U-образная». Однако современные нейросети демонстрируют феномен двойного спуска: после первого пика ошибки она снова уменьшается при дальнейшем росте параметров. Это противоречит классическим оценкам PAC и Радемахера, основанным на VC-размерности. Объяснение связано с неявной регуляризацией: SGD предпочитает решения с малой нормой, даже когда не делает явного штрафа. Для линейных моделей с переопределённой системой это эквивалентно решению с минимальной L2-нормой.
Современные направления
- Generalization bounds для глубоких сетей: PAC-Bayes даёт нетривиальные оценки для конкретных обученных моделей, основанные на «плоскости» минимума функции потерь
- Лотерейные билеты (Frankle & Carbin, 2019): крупная сеть содержит малую подсеть, обучаемую до сравнимого качества — связано с выпуклостью локальных бассейнов
- Безопасное обучение: convex-concave оптимизация для adversarial training гарантирует устойчивость к атакам
§ Акт · что дальше