Сходимости случайных величин и большие уклонения

Существует несколько различных понятий сходимости последовательностей случайных величин. Теория больших уклонений (Large Deviations Theory) изучает вероятности редких событий — экспоненциально малые вероятности отклонений от среднего.

Виды сходимости

По вероятности: Xₙ →_P X, если ∀ε > 0: P(|Xₙ-X| > ε) → 0 при n→∞.

Почти наверное (п.н.): Xₙ →_{п.н.} X, если P(lim Xₙ = X) = 1. Сильнее, чем по вероятности. Следствие: сходимость по вероятности.

По распределению (слабая): Xₙ →d X, если F{Xₙ}(x) → F_X(x) для всех точек непрерывности F_X. Самая слабая — не требует совпадения на одном вероятностном пространстве.

В среднеквадратичном: Xₙ →_{L²} X, если E[(Xₙ-X)²] → 0. Сильнее по вероятности, несравнимо с п.н.

Схема сходимостей: п.н. ⟹ по вероятности ⟹ по распределению. L² ⟹ по вероятности.

Теория больших уклонений

Принцип больших уклонений: Вероятность «большого» отклонения X̄ₙ от μ экспоненциально убывает: P(X̄ₙ ≥ μ+ε) ≈ e^{-nI(μ+ε)}, где I(x) — «скоростная функция» (rate function).

Скоростная функция: I(x) = sup_t {tx - Λ(t)}, Λ(t) = log E[e^{tX}] (логарифмическая МГФ). I — выпуклая, I(μ) = 0, I(x) > 0 при x ≠ μ.

Теорема Крамера (1938): При i.i.d. Xᵢ: lim_{n→∞} (1/n) log P(X̄ₙ ≥ x) = -I(x) при x > μ.

Применения: Страхование: P(S_n > na) при a > μ → оценка катастрофических убытков. Телекоммуникации: P(очередь > n·threshold) → проектирование буферов. Статистика: p-value очень точных тестов при n→∞.

Задание: (а) Для Bernoulli(p=0.5): вычислите I(0.7) = sup_t{0.7t - log(e^t/2+1/2)}. Найдите t* через производную. (б) P(X̄₁₀₀ ≥ 0.7) при Bernoulli: точное (биномиальное), Чернов, теорема Крамера. (в) Объясните, как Теорема Крамера обобщает неравенство Чернова.

Функция скорости и скорость убывания вероятностей

Функция скорости I(x) = sup_{t∈ℝ}{tx − Λ(t)}, где Λ(t) = log E[e^{tX}] — логарифмическая МГФ (кумулянтная производящая функция). I(x) ≥ 0, I(μ) = 0, выпуклая. Теорема Крамера: при x > μ: lim_{n→∞} (1/n)log P(X̄ₙ ≥ x) = −I(x). Скорость убывания вероятности определяется функцией скорости.

Для нормального N(μ,σ²): I(x) = (x−μ)²/(2σ²). Для Bernoulli(p): I(x) = x·ln(x/p) + (1−x)·ln((1−x)/(1−p)) (двоичная дивергенция KL). Функция скорости — расстояние Кульбака-Лейблера от распределения «наклонённого» к экспоненциальному семейству.

Принцип больших уклонений: общая теория

Принцип больших уклонений (ПБУ): Семейство мер {Pₙ} удовлетворяет ПБУ с функцией скорости I, если: (1) для открытого G: lim inf (1/n)log Pₙ(G) ≥ −inf_{x∈G} I(x); (2) для замкнутого F: lim sup (1/n)log Pₙ(F) ≤ −inf_{x∈F} I(x). Теорема Крамера — ПБУ для X̄ₙ. Теорема Санова — ПБУ для эмпирического распределения (I = KL-расстояние).

Применения ПБУ: Оценка хвостовых вероятностей в редких событиях (надёжность, финансовые риски). Статистическая физика: распределение Гиббса из принципа максимума энтропии — следствие ПБУ через теорему Санова. Информационная теория: вероятность ошибочного декодирования — через функцию скорости (теорема Чернова).

Связь функции скорости с энтропией

Для эмпирического распределения L̂ₙ = (1/n)Σδ_{Xᵢ}: P(L̂ₙ ≈ Q) ~ e^{−n·D_KL(Q||P)}, где D_KL — дивергенция Кульбака-Лейблера. Это теорема Санова. Следствие: типичные последовательности — те, которые реализуют распределение P (близки к P в KL-смысле). Нетипичные последовательности экспоненциально маловероятны с экспонентой KL(Q||P). Атипичность = удалённость от «истинного» распределения.

Ланжевеновская динамика и выборка из непрерывных распределений

Для выборки из распределения π(x) ∝ e^{-U(x)}: Langevin SDE: dX_t = −∇U(X_t)dt + √2 dW_t. Инвариантное распределение: e^{-U(x)}/Z. Дискретизация (ULA): X_{k+1} = X_k − η∇U(X_k) + √(2η)ξₖ, ξₖ ~ N(0,I). При η→0 сходится к π. Метрополис-скорректированный Ланжевен (MALA) добавляет шаг принятия.

Принцип максимума энтропии

Задача: среди всех распределений P, удовлетворяющих ограничениям E[f_i(X)] = μᵢ, найти то, что максимизирует энтропию H(P) = −E[ln P]. Решение: P*(x) = (1/Z)exp(Σᵢ λᵢ fᵢ(x)) — экспоненциальное семейство с лагранжевыми множителями λᵢ. Это объясняет распределение Гиббса в статфизике и максимальноправдоподобные оценки.

Теория информации и вероятность

Взаимная информация I(X;Y) = D_KL(P_{XY}||P_X·P_Y) = H(X) − H(X|Y). Неотрицательна, = 0 тогда и только тогда, когда X и Y независимы. В теории кодирования: I(X;Y) — пропускная способность канала. В ML: взаимная информация — критерий отбора признаков (максимизация I(признак; метка)).

Дифференциальная энтропия и её свойства

Дифференциальная энтропия: h(X) = −∫f(x)log f(x)dx. Для N(μ,σ²): h = (1/2)log(2πeσ²). Максимальная при фиксированной дисперсии — у нормального (принцип максимума энтропии). KL-дивергенция: D_KL(P||Q) ≥ 0, = 0 только при P = Q. Связь с информацией Фишера: при малых возмущениях D_KL(P_θ||P_{θ+dθ}) ≈ (1/2)I(θ)(dθ)² — геометрия Рао в пространстве распределений.

Численный пример: функция скорости уклонения Крамера

Задача: X₁,...,Xₙ ~ Bernoulli(p=0.5). Найти приближение P(X̄ₙ≥0.7) для n=100 через теорему больших уклонений.

Шаг 1: Функция скорости Крамера для Bernoulli: I(x) = x·ln(x/p)+(1−x)·ln((1−x)/(1−p)). При x=0.7, p=0.5.

Шаг 2: I(0.7) = 0.7·ln(0.7/0.5)+0.3·ln(0.3/0.5) = 0.7·ln(1.4)+0.3·ln(0.6) = 0.7·0.3365+0.3·(−0.5108) = 0.2355−0.1532 = 0.0823.

Шаг 3: По теореме Крамера: ln P(X̄ₙ≥0.7)≈−n·I(0.7)=−100·0.0823=−8.23. P(X̄₁₀₀≥0.7)≈e^{−8.23}≈2.66·10⁻⁴.

Шаг 4: Нормальная аппроксимация (ЦПТ): P(Z≥(0.7−0.5)/0.05)=P(Z≥4.0)≈3.2·10⁻⁵ — в 8 раз меньше. Для больших уклонений ЦПТ недооценивает вероятность хвоста; теорема Крамера точнее. I(x) = D_KL(Ber(x)||Ber(p)) — именно дивергенция Кульбака-Лейблера задаёт скорость экспоненциального убывания.