Параметрическое оценивание

Статистическое оценивание — построение оценок неизвестных параметров по наблюдённым данным. Метод максимального правдоподобия, байесовский подход и метод моментов — три основных парадигмы.

Метод максимального правдоподобия (ММП)

Функция правдоподобия: L(θ; x₁,...,xₙ) = Πᵢ f(xᵢ; θ) (для i.i.d. выборки). Log-правдоподобие: ℓ(θ) = Σᵢ log f(xᵢ; θ).

ОМП: θ̂_MLE = argmax_θ ℓ(θ). Решение: ∂ℓ/∂θ = 0 (уравнения правдоподобия).

Свойства ОМП: Состоятельность: θ̂_n →_P θ₀. Асимптотическая нормальность: √n(θ̂_n - θ₀) →_d N(0, I(θ₀)⁻¹). Асимптотическая эффективность: достигает нижней границы Крамера-Рао.

Информация Фишера: I(θ) = E[-(∂²ℓ/∂θ²)] = Var[∂ℓ/∂θ]. Нижняя граница Крамера-Рао: Var[θ̂] ≥ 1/(nI(θ)).

Байесовское оценивание

Байесовское оновление: π(θ|x) ∝ L(θ; x) · π(θ). Апостериорное = Правдоподобие × Априорное / Нормировка.

Байесовские оценки: MAP (maximum a posteriori): θ̂_MAP = argmax π(θ|x). EAP (expected a posteriori): θ̂_Bayes = E[θ|x] — минимизирует MSE.

Сопряжённые приоры: Если π(θ) и L(θ;x) такой формы, что π(θ|x) из того же семейства — сопряжённый приор. Бета-Бернулли: π = Beta(α,β), L = Bin(n,p) → π|x = Beta(α+k, β+n-k).

EM-алгоритм

Задача: ОМП при неполных данных или скрытых переменных. Максимизировать ℓ(θ; x) = log P(x; θ) = log Σ_z P(x,z; θ).

EM: E-шаг: Q(θ|θ^t) = E_{z|x,θ^t}[log P(x,z;θ)]. M-шаг: θ^{t+1} = argmax_θ Q(θ|θ^t). Гарантированно не уменьшает ℓ на каждом шаге.

Задание: (а) Выборка Poisson: x₁,...,xₙ. Найдите ОМП для λ. Информация Фишера I(λ). Доверительный интервал. (б) Бета-приор Beta(2,2) для монеты. 7 орлов из 10. Апостериорное? MAP vs MLE vs Bayes EAP. (в) EM для Gaussian Mixture с двумя компонентами: запишите E-шаг (γᵢₖ) и M-шаг (μₖ, σₖ, πₖ).

Теория оценивания: полнота и достаточность

Достаточная статистика T(X) содержит всю информацию выборки о параметре θ: распределение X|T не зависит от θ. Критерий факторизации Неймана-Фишера: T достаточна тогда и только тогда, когда f(x|θ) = g(T(x),θ)·h(x). Для экспоненциального семейства f(x|θ) = h(x)·exp{η(θ)T(x) − A(θ)} — натуральные достаточные статистики T(x).

Полная статистика T: E_{θ}[g(T)] = 0 для всех θ ⟹ g(T) = 0 п.н. Лемма Лемана-Шеффе: если T полная достаточная, то любая несмещённая функция от T — MVUE (оценка с минимальной дисперсией в классе несмещённых).

Байесовское оценивание: апостериорные функционалы

MAP (Maximum A Posteriori): θ̂_MAP = argmax p(θ|x). При равномерном priore → MLE. При Лапласовом priore → L1-регуляризация (Lasso). При гауссовом priore → L2-регуляризация (Ridge).

EAP (Expected A Posteriori) = Bayes estimate: θ̂_EAP = E[θ|x] — оптимален при квадратичных потерях. MAP оптимален при 0-1 потерях. Медиана posteriora оптимальна при абсолютных потерях. Выбор оценки зависит от функции потерь.

Empirical Bayes: Апостериорный priori оценивается из данных (Штейн, 1956). Оценка Джеймса-Штейна уменьшает MSE оценки μ в ℝᵏ при k ≥ 3: θ̂_JS = (1 − (k−2)/||X||²)·X. Парадокс: оценка вектора μ с некоррелированными компонентами улучшается объединением. EM-алгоритм: итеративный метод нахождения MLE для неполных данных. E-шаг: E[log L(θ|X_complete)|X_obs, θ_t]; M-шаг: max по θ. Сходится монотонно (Q(θ|θ_t) возрастает).

Сопряжённые семейства прайоров в байесовском анализе

Прайор π(θ) называется сопряжённым для правдоподобия f(x|θ), если апостериорное распределение π(θ|x) принадлежит тому же параметрическому семейству, что и прайор. Таблица: Bernoulli → Beta; Poisson → Gamma; Normal (μ, σ² known) → Normal; Multinomial → Dirichlet; Exponential → Gamma.

Beta-Binomial: приор Beta(α,β), данные Bin(n,p): постериори Beta(α+k, β+n−k). «Псевдоданные»: α и β — «приор-наблюдения» орлов и решек. По мере роста n прайор размывается. MAP-оценка: p̂_MAP = (α+k−1)/(α+β+n−2). При α=β=1 (равномерный прайор) MAP = MLE = k/n.

Байесовская модель выбора и сравнение моделей

Байесовский фактор: BF₁₂ = P(X|M₁)/P(X|M₂) = ∫L(θ₁)π(θ₁)dθ₁ / ∫L(θ₂)π(θ₂)dθ₂. Требует маргинальных правдоподобий — вычислительно сложно (MCMC, Laplace approximation). Критерий DIC: DIC = D̄ + pD, где D̄ — среднее отклонение, pD — эффективное число параметров. Байесовский аналог AIC.

Апостериорное предсказание и калибровка

Апостериорное предсказательное распределение: P(x̃|x) = ∫P(x̃|θ)π(θ|x)dθ — усредняет неопределённость в параметрах. Байесовски откалиброванная модель: P(event|posterior) = frequency(event). Это сильнее, чем частотная калибровка: учитывает параметрическую неопределённость.

Вариационный байесовский вывод

Вместо MCMC: аппроксимировать P(θ|X) семейством Q(θ;λ). Минимизировать ELBO: L(λ) = E_Q[log P(X,θ)] − E_Q[log Q(θ;λ)]. Для mean-field аппроксимации Q(θ) = ΠQ(θᵢ): итеративное обновление каждого фактора. Преимущества: быстрее MCMC для больших данных. Недостаток: может занижать дисперсию (underestimate uncertainty).

Байесовское обновление в реальном времени

При поступлении новых данных апостериорное распределение становится новым приором: P(θ|x₁,...,xₙ) = P(xₙ|θ)·P(θ|x₁,...,xₙ₋₁)/P(xₙ|x₁,...,xₙ₋₁). Для сопряжённых прайоров — аналитически обновляется. Онлайн-обучение: байесовский подход естественно поддерживает потоковые данные. Фильтр Калмана — частный случай: байесовский фильтр для линейных гауссовых моделей.

Численный пример: MLE для нормального распределения

Задача: Выборка: x={2.1, 3.4, 2.8, 3.1, 2.6}. Найти MLE для μ и σ². Сравнить с байесовской оценкой.

Шаг 1: Log-likelihood: ℓ(μ,σ²) = −(n/2)ln(2πσ²)−Σ(xᵢ−μ)²/(2σ²). ∂ℓ/∂μ=0 → μ̂=x̄.

Шаг 2: x̄=(2.1+3.4+2.8+3.1+2.6)/5=14.0/5=2.80.

Шаг 3: ∂ℓ/∂σ²=0 → σ̂²=Σ(xᵢ−x̄)²/n. Отклонения: (−0.7)²+(0.6)²+(0)²+(0.3)²+(−0.2)²=0.49+0.36+0+0.09+0.04=0.98. σ̂²=0.98/5=0.196.

Шаг 4: Несмещённая дисперсия: s²=0.98/4=0.245. 95%-ДИ для μ: x̄±t₀.₀₂₅,₄·s/√n=2.80±2.776·(0.495/√5)=2.80±0.614=[2.19, 3.41]. Байесовская оценка с N(μ₀=3, τ²=1) prior: μ̂_Bayes=(0.196·3+5·1·2.80)/(0.196+5)=14.588/5.196≈2.808 — сдвинута к prior лишь на 0.008.