Модуль V·Статья I·~4 мин чтения
Параметрическое оценивание
Выборочная статистика и оценивание
Превратить статью в подкаст
Выберите голоса, формат и длину — AI запишет аудио
Параметрическое оценивание
Статистическое оценивание — построение оценок неизвестных параметров по наблюдённым данным. Метод максимального правдоподобия, байесовский подход и метод моментов — три основных парадигмы.
Метод максимального правдоподобия (ММП)
Функция правдоподобия: L(θ; x₁,...,xₙ) = Πᵢ f(xᵢ; θ) (для i.i.d. выборки). Log-правдоподобие: ℓ(θ) = Σᵢ log f(xᵢ; θ).
ОМП: θ̂_MLE = argmax_θ ℓ(θ). Решение: ∂ℓ/∂θ = 0 (уравнения правдоподобия).
Свойства ОМП: Состоятельность: θ̂_n →_P θ₀. Асимптотическая нормальность: √n(θ̂_n - θ₀) →_d N(0, I(θ₀)⁻¹). Асимптотическая эффективность: достигает нижней границы Крамера-Рао.
Информация Фишера: I(θ) = E[-(∂²ℓ/∂θ²)] = Var[∂ℓ/∂θ]. Нижняя граница Крамера-Рао: Var[θ̂] ≥ 1/(nI(θ)).
Байесовское оценивание
Байесовское оновление: π(θ|x) ∝ L(θ; x) · π(θ). Апостериорное = Правдоподобие × Априорное / Нормировка.
Байесовские оценки: MAP (maximum a posteriori): θ̂_MAP = argmax π(θ|x). EAP (expected a posteriori): θ̂_Bayes = E[θ|x] — минимизирует MSE.
Сопряжённые приоры: Если π(θ) и L(θ;x) такой формы, что π(θ|x) из того же семейства — сопряжённый приор. Бета-Бернулли: π = Beta(α,β), L = Bin(n,p) → π|x = Beta(α+k, β+n-k).
EM-алгоритм
Задача: ОМП при неполных данных или скрытых переменных. Максимизировать ℓ(θ; x) = log P(x; θ) = log Σ_z P(x,z; θ).
EM: E-шаг: Q(θ|θ^t) = E_{z|x,θ^t}[log P(x,z;θ)]. M-шаг: θ^{t+1} = argmax_θ Q(θ|θ^t). Гарантированно не уменьшает ℓ на каждом шаге.
Задание: (а) Выборка Poisson: x₁,...,xₙ. Найдите ОМП для λ. Информация Фишера I(λ). Доверительный интервал. (б) Бета-приор Beta(2,2) для монеты. 7 орлов из 10. Апостериорное? MAP vs MLE vs Bayes EAP. (в) EM для Gaussian Mixture с двумя компонентами: запишите E-шаг (γᵢₖ) и M-шаг (μₖ, σₖ, πₖ).
Теория оценивания: полнота и достаточность
Достаточная статистика T(X) содержит всю информацию выборки о параметре θ: распределение X|T не зависит от θ. Критерий факторизации Неймана-Фишера: T достаточна тогда и только тогда, когда f(x|θ) = g(T(x),θ)·h(x). Для экспоненциального семейства f(x|θ) = h(x)·exp{η(θ)T(x) − A(θ)} — натуральные достаточные статистики T(x).
Полная статистика T: E_{θ}[g(T)] = 0 для всех θ ⟹ g(T) = 0 п.н. Лемма Лемана-Шеффе: если T полная достаточная, то любая несмещённая функция от T — MVUE (оценка с минимальной дисперсией в классе несмещённых).
Байесовское оценивание: апостериорные функционалы
MAP (Maximum A Posteriori): θ̂_MAP = argmax p(θ|x). При равномерном priore → MLE. При Лапласовом priore → L1-регуляризация (Lasso). При гауссовом priore → L2-регуляризация (Ridge).
EAP (Expected A Posteriori) = Bayes estimate: θ̂_EAP = E[θ|x] — оптимален при квадратичных потерях. MAP оптимален при 0-1 потерях. Медиана posteriora оптимальна при абсолютных потерях. Выбор оценки зависит от функции потерь.
Empirical Bayes: Апостериорный priori оценивается из данных (Штейн, 1956). Оценка Джеймса-Штейна уменьшает MSE оценки μ в ℝᵏ при k ≥ 3: θ̂_JS = (1 − (k−2)/||X||²)·X. Парадокс: оценка вектора μ с некоррелированными компонентами улучшается объединением. EM-алгоритм: итеративный метод нахождения MLE для неполных данных. E-шаг: E[log L(θ|X_complete)|X_obs, θ_t]; M-шаг: max по θ. Сходится монотонно (Q(θ|θ_t) возрастает).
Сопряжённые семейства прайоров в байесовском анализе
Прайор π(θ) называется сопряжённым для правдоподобия f(x|θ), если апостериорное распределение π(θ|x) принадлежит тому же параметрическому семейству, что и прайор. Таблица: Bernoulli → Beta; Poisson → Gamma; Normal (μ, σ² known) → Normal; Multinomial → Dirichlet; Exponential → Gamma.
Beta-Binomial: приор Beta(α,β), данные Bin(n,p): постериори Beta(α+k, β+n−k). «Псевдоданные»: α и β — «приор-наблюдения» орлов и решек. По мере роста n прайор размывается. MAP-оценка: p̂_MAP = (α+k−1)/(α+β+n−2). При α=β=1 (равномерный прайор) MAP = MLE = k/n.
Байесовская модель выбора и сравнение моделей
Байесовский фактор: BF₁₂ = P(X|M₁)/P(X|M₂) = ∫L(θ₁)π(θ₁)dθ₁ / ∫L(θ₂)π(θ₂)dθ₂. Требует маргинальных правдоподобий — вычислительно сложно (MCMC, Laplace approximation). Критерий DIC: DIC = D̄ + pD, где D̄ — среднее отклонение, pD — эффективное число параметров. Байесовский аналог AIC.
Апостериорное предсказание и калибровка
Апостериорное предсказательное распределение: P(x̃|x) = ∫P(x̃|θ)π(θ|x)dθ — усредняет неопределённость в параметрах. Байесовски откалиброванная модель: P(event|posterior) = frequency(event). Это сильнее, чем частотная калибровка: учитывает параметрическую неопределённость.
Вариационный байесовский вывод
Вместо MCMC: аппроксимировать P(θ|X) семейством Q(θ;λ). Минимизировать ELBO: L(λ) = E_Q[log P(X,θ)] − E_Q[log Q(θ;λ)]. Для mean-field аппроксимации Q(θ) = ΠQ(θᵢ): итеративное обновление каждого фактора. Преимущества: быстрее MCMC для больших данных. Недостаток: может занижать дисперсию (underestimate uncertainty).
Байесовское обновление в реальном времени
При поступлении новых данных апостериорное распределение становится новым приором: P(θ|x₁,...,xₙ) = P(xₙ|θ)·P(θ|x₁,...,xₙ₋₁)/P(xₙ|x₁,...,xₙ₋₁). Для сопряжённых прайоров — аналитически обновляется. Онлайн-обучение: байесовский подход естественно поддерживает потоковые данные. Фильтр Калмана — частный случай: байесовский фильтр для линейных гауссовых моделей.
Численный пример: MLE для нормального распределения
Задача: Выборка: x={2.1, 3.4, 2.8, 3.1, 2.6}. Найти MLE для μ и σ². Сравнить с байесовской оценкой.
Шаг 1: Log-likelihood: ℓ(μ,σ²) = −(n/2)ln(2πσ²)−Σ(xᵢ−μ)²/(2σ²). ∂ℓ/∂μ=0 → μ̂=x̄.
Шаг 2: x̄=(2.1+3.4+2.8+3.1+2.6)/5=14.0/5=2.80.
Шаг 3: ∂ℓ/∂σ²=0 → σ̂²=Σ(xᵢ−x̄)²/n. Отклонения: (−0.7)²+(0.6)²+(0)²+(0.3)²+(−0.2)²=0.49+0.36+0+0.09+0.04=0.98. σ̂²=0.98/5=0.196.
Шаг 4: Несмещённая дисперсия: s²=0.98/4=0.245. 95%-ДИ для μ: x̄±t₀.₀₂₅,₄·s/√n=2.80±2.776·(0.495/√5)=2.80±0.614=[2.19, 3.41]. Байесовская оценка с N(μ₀=3, τ²=1) prior: μ̂_Bayes=(0.196·3+5·1·2.80)/(0.196+5)=14.588/5.196≈2.808 — сдвинута к prior лишь на 0.008.
§ Акт · что дальше