Математическое ожидание и моменты

Математическое ожидание — «центр тяжести» распределения. Моменты характеризуют форму распределения: среднее, дисперсия, асимметрия, эксцесс.

Математическое ожидание

Определение: E[X] = Σ x·P(X=x) (дискретная), ∫ x·f(x)dx (непрерывная). Существует при Σ|x|P(X=x) < ∞.

Линейность: E[aX+bY] = aE[X] + bE[Y] — всегда (независимо от зависимости X,Y!). E[X₁+...+Xₙ] = nμ (при одинаковых E[Xᵢ]=μ).

Для функций: E[g(X)] = Σ g(x)P(X=x) = ∫ g(x)f(x)dx. Неравенство Йенсена: для выпуклой g: E[g(X)] ≥ g(E[X]).

Дисперсия и ковариация

Дисперсия: Var[X] = E[(X-E[X])²] = E[X²] - (E[X])². Σ — стандартное отклонение. Var[aX+b] = a²Var[X]. Var[X+Y] = Var[X] + Var[Y] + 2Cov(X,Y).

Ковариация: Cov(X,Y) = E[(X-E[X])(Y-E[Y])] = E[XY] - E[X]E[Y]. При независимости: Cov(X,Y) = 0 (но не наоборот!). Корреляция: ρ = Cov(X,Y)/(σ_X σ_Y) ∈ [-1,1].

Моменты и кумулянты: n-й момент: μₙ = E[Xⁿ]. Центральный момент: E[(X-μ)ⁿ]. Асимметрия (skewness): γ₁ = μ₃/σ³. Эксцесс (kurtosis): γ₂ = μ₄/σ⁴ - 3. Для нормального: γ₁=0, γ₂=0 (мезокуртозис).

Задание: (а) X~~Poisson(3): вычислите E[X], E[X²], Var[X], E[X(X-1)]. (б) X~~U[0,1]: E[X^n]? (в) Пусть X,Y зависимы: X~N(0,1), Y=X². Вычислите Cov(X,Y)=0, но они зависимы. Почему нулевая ковариация не означает независимость?

Условное математическое ожидание

Условное математическое ожидание E[X|Y] — случайная величина, которая «оптимально предсказывает» X по Y в смысле наименьшего среднеквадратического отклонения. Формально: E[X|Y=y] = ∫ x·f_{X|Y}(x|y)dx. Функция g(y) = E[X|Y=y] — наилучший предиктор X из Y среди всех функций Y.

Закон полного ожидания: E[X] = E[E[X|Y]]. Мощный инструмент вычислений: E[X] = Σⱼ E[X|Y=j]·P(Y=j). Например, E[число бросков кубика до суммы > 10] вычисляется через условное ожидание.

Закон полной дисперсии: Var[X] = E[Var[X|Y]] + Var[E[X|Y]]. Разбивает дисперсию на «среднюю внутригрупповую» и «межгрупповую» — прямая аналогия ANOVA.

E[X|Y] как проекция: В пространстве L²(Ω) случайных величин с конечной второй моментой E[X|F_Y] — ортогональная проекция X на подпространство F_Y-измеримых СВ. Ортогональность означает: E[(X − E[X|Y])·g(Y)] = 0 для любой функции g. Это геометрическая интерпретация, связывающая теорию вероятностей с функциональным анализом.

Неравенство Йенсена и выпуклость

Неравенство Йенсена E[g(X)] ≥ g(E[X]) для выпуклых функций имеет многочисленные применения. AM-GM: среднее арифметическое ≥ среднего геометрического: (X₁+...+Xₙ)/n ≥ (X₁·...·Xₙ)^{1/n} — следствие выпуклости −ln. Информационное неравенство: D_KL(P||Q) ≥ 0 (расстояние Кульбака-Лейблера неотрицательно) — следствие Йенсена для выпуклой функции −log. Ценообразование опционов: E[max(S_T−K, 0)] ≥ max(E[S_T]−K, 0) — опцион стоит не менее своей внутренней стоимости.

Для вогнутых (concave) функций неравенство меняется: E[g(X)] ≤ g(E[X]). Следствие: E[ln X] ≤ ln E[X] — логарифм среднего больше среднего логарифма.

Неравенство Маркова: происхождение и следствия

Неравенство Маркова P(X ≥ a) ≤ E[X]/a для X ≥ 0 доказывается одной строкой: E[X] = ∫₀^a x f(x)dx + ∫_a^∞ x f(x)dx ≥ a·P(X≥a). Простота делает неравенство универсальным: оно не требует конечной дисперсии. Предел применимости: при X ~ Exp(1) и a=2: P(X≥2) = e⁻² ≈ 0.135, неравенство Маркова даёт 0.5 — в 3.7 раза грубее. Чем тяжелее хвост, тем грубее оценка Маркова.

Неравенство Хёффдинга: Для X₁,...,Xₙ независимых, aᵢ ≤ Xᵢ ≤ bᵢ и S = ΣXᵢ: P(S − E[S] ≥ t) ≤ exp(−2t²/Σ(bᵢ−aᵢ)²). Это эспоненциальная оценка для ограниченных случайных величин, значительно точнее Чебышёва. Широко применяется в статистике обучения (PAC-learning, generalization bounds).

Концентрация меры и высокие измерения

В пространствах высокой размерности происходят удивительные явления — концентрация меры. Для стандартной нормальной случайной переменной X ~ N(0,1): при n→∞ X₁²+...+Xₙ² ≈ n с малыми отклонениями (√2n). Объём единичного шара Bⁿ концентрируется вблизи экватора и поверхности: большинство точки находятся при |x| ≈ √n/√(n+2) ≈ 1.

Неравенство Боррела-Суде (isoperimetric inequality on sphere): Если A ⊆ Sⁿ⁻¹ с мерой ≥ 1/2, то его ε-расширение имеет меру ≥ 1 − 2e^{−nε²/2}. Концентрация меры объясняет: почему нейронные сети работают в высоких размерностях, почему случайные проекции сохраняют расстояния (лемма Джонсона-Линденштраусса) и почему Bootstrap выборки вблизи среднего.

Мартингалы и неравенство Азумы-Хёффдинга

Мартингал M₀, M₁, ... — последовательность СВ с E[Mₙ₊₁|M₀,...,Mₙ] = Mₙ. Нет систематического тренда. Примеры: случайное блуждание, накопленный выигрыш в честной игре, частичные суммы i.i.d. СВ с нулевым средним.

Неравенство Азумы: Для мартингала с |Mₖ − Mₖ₋₁| ≤ cₖ: P(Mₙ − M₀ ≥ t) ≤ exp(−t²/2Σcₖ²). Обобщает Хёффдинга на зависимые случайные величины. Применяется в анализе рандомизированных алгоритмов, хромосомных анализах методом Доба, оценке функций от лоддера-факторов в комбинаторике (метод «Липшицева мартингала»).

Численный пример: применение неравенства Чебышёва (ЗБЧ)

Задача: X₁,...,Xₙ ~ Bernoulli(p=0.4). Найти минимальное n, при котором P(|X̄ₙ−0.4|>0.05) ≤ 0.05.

Шаг 1: Дисперсия: σ² = p(1−p) = 0.4·0.6 = 0.24. Var[X̄ₙ] = σ²/n = 0.24/n.

Шаг 2: Неравенство Чебышёва: P(|X̄ₙ−μ|≥ε) ≤ Var[X̄ₙ]/ε² = 0.24/(n·0.0025).

Шаг 3: Нужно 0.24/(0.0025n) ≤ 0.05 → n ≥ 0.24/(0.0025·0.05) = 1920.

Шаг 4: ЦПТ даёт лучшую оценку: P(|X̄−0.4|>0.05) ≤ 2(1−Φ(0.05·√n/√0.24)) ≤ 0.05. Из Φ(z) = 0.975 → z = 1.96. Тогда 0.05·√n/0.490 ≥ 1.96 → n ≥ (1.96·0.490/0.05)² = 369. ЗБЧ гарантирует сходимость, ЦПТ — эффективность.