Асимптотические свойства оценок и дельта-метод

Асимптотическая статистика изучает поведение оценок при n → ∞. Состоятельность, асимптотическая нормальность и дельта-метод — основные инструменты для анализа свойств оценок.

Состоятельность

Слабая состоятельность: θ̂ₙ →_P θ₀ при n→∞. Достаточное условие: Bias(θ̂ₙ)→0 и Var[θ̂ₙ]→0. Среднеквадратическая состоятельность (MSE→0) влечёт слабую.

Сильная состоятельность: θ̂ₙ →_{п.н.} θ₀. ОМП сильно состоятелен при регулярных условиях — следует из сильного ЗБЧ применённого к лог-правдоподобию.

Инвариантность ОМП: Если θ̂ — ОМП для θ, то g(θ̂) — ОМП для g(θ) (для любой функции g). Это следствие определения через максимум правдоподобия.

Асимптотическая нормальность ОМП

Теорема: При регулярных условиях: √n(θ̂_MLE - θ₀) →_d N(0, I(θ₀)⁻¹). Оценка приближённо нормальна с дисперсией 1/(nI(θ₀)).

Нарушения регулярности: Равномерное U[0,θ]: ОМП = X_(n), скорость n (не √n), предельное распределение — экспоненциальное. Смешанные модели: скорость √n, но предельное ненормальное.

Асимптотические доверительные интервалы: Три типа: (1) Вальд: θ̂ ± z_{α/2}·SE(θ̂); (2) Лихтенберг: через профиль правдоподобия; (3) Score: через производную правдоподобия. Интервалы на основе профиля правдоподобия точнее при малых n.

Дельта-метод

Одномерный: Если √n(θ̂ₙ - θ₀) →_d N(0, σ²) и g дифференцируема в θ₀ (g'(θ₀) ≠ 0): √n(g(θ̂ₙ) - g(θ₀)) →_d N(0, σ²·(g'(θ₀))²). Дисперсия нелинейного преобразования ≈ (производная)² × исходная дисперсия.

Многомерный дельта-метод: √n(g(θ̂) - g(θ₀)) →_d N(0, ∇g(θ₀)ᵀ Σ ∇g(θ₀)), где Σ — асимптотическая ковариационная матрица θ̂.

Практические применения: Коэффициент вариации CV = σ/μ. Логит-преобразование: g(p) = log(p/(1-p)). Отношение рисков в выживаемости. Разница в пропорциях.

Задание: (а) Poisson(λ=3): I(λ)=1/λ. Дельта-метод для g(λ̂) = e^{-λ̂} = P(X=0). Асимптотический 95% ДИ. (б) LN(μ,σ²): ОМП для медианы e^{μ̂}. Дельта-метод для SE(e^{μ̂}). (в) n=200 из Gamma(α=2, β=1). Проверьте дельта-метод для 1/X̄ симуляционно (1000 повторений).

Дельта-метод: второй порядок и многомерный случай

Дельта-метод второго порядка: При g'(μ) = 0: √n(g(X̄) − g(μ)) → не нормально. Используем второй порядок: n(g(X̄) − g(μ)) → σ²g''(μ)/2 · χ²(1) — хи-квадрат распределение. Пример: g(μ) = μ² при μ=0: n(X̄²) → σ²·χ²(1).

Многомерный дельта-метод: Если √n(X̄ − μ) → Nₖ(0,Σ), то для g: ℝᵏ→ℝ: √n(g(X̄) − g(μ)) → N(0, ∇g(μ)ᵀ Σ ∇g(μ)). Для вектор-функции g: ℝᵏ→ℝᵐ: √n(g(X̄) − g(μ)) → N(0, JΣJᵀ), где J — якобиан.

Информация Фишера: смысл и применения

I(θ) = -E[∂²/∂θ² log f(X;θ)] — «ожидаемая информация» в одном наблюдении. Чем больше кривизна log-правдоподобия, тем больше информации. Информационное неравенство: Var(θ̂) ≥ 1/(nI(θ)) — нижний предел дисперсии. Для нормального N(μ,σ²): I(μ)=1/σ², I(σ²)=1/(2σ⁴). Для Poisson(λ): I(λ)=1/λ.

Информация в нескольких параметрах: Матрица информации Фишера I(θ) ∈ ℝᵖˣᵖ: Iᵢⱼ = -E[∂²/∂θᵢ∂θⱼ log f]. Матричное ЦРБ: Var(θ̂) ≥ I(θ)⁻¹ (по Лёвнеру). Для MLE: √n(θ̂ − θ) → Nₚ(0, I(θ)⁻¹) — асимптотически эффективен.

Регрессия как задача оценивания

В линейной регрессии Y = Xβ + ε, ε ~ N(0,σ²I): MLE совпадает с МНК. Информация Фишера I(β) = XᵀX/σ². ЦРБ: Var(β̂) ≥ σ²(XᵀX)⁻¹ — достигается МНК (теорема Гаусса-Маркова). При p > n: регуляризованные оценки (Ridge, Lasso) — ниже ЦРБ по MSE за счёт смещения.

Асимптотические критерии: тесты Вальда, Рао, Wald

Три эквивалентных асимптотических теста для H₀: θ=θ₀. Тест Вальда: Wₙ = n(θ̂−θ₀)ᵀI(θ̂)(θ̂−θ₀) ~ χ²(k). Тест правдоподобия (LRT): Λₙ = 2(ℓ(θ̂)−ℓ(θ₀)) ~ χ²(k). Тест Рао (скор-тест): Rₙ = n⁻¹S(θ₀)ᵀI(θ₀)⁻¹S(θ₀) ~ χ²(k), S — скор-функция. Все три асимптотически эквивалентны, но конечновыборочные свойства различаются. Тест Рао удобен: не требует MLE.

Бутстрэп в оценке информации Фишера

При сложных моделях аналитическая I(θ) труднодоступна. Параметрический бутстрэп: сгенерировать B выборок из F(θ̂), оценить θ̂* для каждой. SE_boot ≈ std(θ̂*) ≈ 1/√I(θ̂). Непараметрический бутстрэп: resample из данных — асимптотически корректен, но нужна дополнительная осторожность в зависимых данных.

Регуляризованное оценивание при высокой размерности

При p > n: MLE не существует (XᵀX вырожден). Ridge-оценка: β̂_ridge = (XᵀX + λI)⁻¹Xᵀy. Байесовская интерпретация: гауссовый прайор N(0, τ²I) → постериори-среднее при λ = σ²/τ². Никогда не дает точно нулевых коэффициентов. Lasso: β̂_lasso = argmin_β {||y−Xβ||² + λ||β||₁}. Лапласовый прайор → разреженное решение (отбор признаков). Геометрически: l₁-шар имеет вершины → оптимум часто в угловой точке.

Теория оценивания при ограничениях

Оценки при ограничениях: θ ∈ C (замкнутое выпуклое C). MLE-с-ограничением: argmax_{θ∈C} L(θ). Метод множителей Лагранжа; для неравенства-ограничений — условия Каруша-Куна-Таккера (KKT). Проверка ограничений: Wald-тест: H₀: Rθ=r против Rθ≠r. Статистика: (Rβ̂−r)ᵀ(R(XᵀX)⁻¹Rᵀ)⁻¹(Rβ̂−r)/(qσ²) ~ F(q, n−p). Используется для проверки групп гипотез одновременно.

Численный пример: дельта-метод для доверительного интервала логита

Задача: X₁,...,X₁₀₀ ~ Bernoulli(p), x̄=0.30. Построить 95%-ДИ для логита g(p)=ln(p/(1−p)).

Шаг 1: По ЦПТ: √n(x̄−p)→N(0,p(1−p)). g(p)=ln(p/(1−p)), g'(p)=1/(p(1−p)).

Шаг 2: При p̂=0.3: g'(0.3)=1/(0.3·0.7)=1/0.21≈4.762. Var[g(p̂)]≈[g'(p̂)]²·p̂(1−p̂)/n=22.68·0.21/100=0.0476.

Шаг 3: SE≈√0.0476≈0.218. g(0.3)=ln(0.3/0.7)=ln(0.4286)≈−0.847. 95%-ДИ для логита: −0.847±1.96·0.218=[−1.274, −0.420].

Шаг 4: Обратная трансформация: нижняя граница p: e^{−1.274}/(1+e^{−1.274})=(0.2793/1.2793)≈0.218. Верхняя: e^{−0.420}/(1+e^{−0.420})≈0.397. ДИ для p: [0.22, 0.40]. Wald-интервал (прямой): 0.30±1.96·0.0458=[0.21, 0.39] — сопоставимо, но логит-интервал лучше при экстремальных p.