Достаточные статистики и теорема Рао-Блэкуэлла

Достаточная статистика сжимает всю информацию о параметре из выборки. Теорема Рао-Блэкуэлла позволяет улучшить любую оценку, условно усредняя по достаточной статистике.

Достаточные статистики

Определение (Фишер, 1922): Статистика T(X) достаточна для θ, если условное распределение выборки при фиксированном T не зависит от θ. Интуиция: T содержит всё, что выборка знает о θ.

Критерий факторизации (Неймана-Фишера): T достаточна тогда и только тогда, когда правдоподобие факторизуется: L(θ; x) = g(T(x); θ) · h(x). Часть, зависящая от θ, входит только через T(x).

Примеры: Poisson(λ): T = ΣXᵢ. Bernoulli(p): T = ΣXᵢ. N(μ, σ² известна): T = X̄ = ΣXᵢ/n. N(μ, σ² неизвестна): T = (ΣXᵢ, ΣXᵢ²) — двумерная достаточная статистика.

Минимальная достаточная статистика: T — минимально достаточна, если она является функцией любой другой достаточной статистики. Для экспоненциального семейства: натуральная достаточная статистика минимальна.

Теорема Рао-Блэкуэлла

Формулировка: Пусть θ̃ — несмещённая оценка θ, T — достаточная статистика. Положим θ̂ = E[θ̃ | T]. Тогда: (1) θ̂ несмещена; (2) Var[θ̂] ≤ Var[θ̃] для всех θ. Условное усреднение по достаточной статистике не ухудшает дисперсию.

Доказательство: E[θ̂] = E[E[θ̃|T]] = E[θ̃] = θ. По формуле полной дисперсии: Var[θ̃] = E[Var[θ̃|T]] + Var[E[θ̃|T]] = E[Var[θ̃|T]] + Var[θ̂] ≥ Var[θ̂].

УМНО-оценки (UMVUE)

Определение: Равномерно наилучшая несмещённая оценка (UMVUE) — несмещённая оценка с минимально возможной дисперсией для всех θ одновременно.

Теорема Леманна-Шеффе: Если T — полная достаточная статистика и g(T) несмещена для θ, то g(T) — UMVUE.

Пример: Poisson(λ): T = ΣXᵢ — полная достаточная. X̄ = T/n — UMVUE для λ. UMVUE для e^{-λ} = P(X=0): ((n-1)/n)^T. Для Bernoulli(p): X̄ = T/n — UMVUE для p; T(T-1)/(n(n-1)) — UMVUE для p².

Граница Крамера-Рао для UMVUE: Для экспоненциального семейства UMVUE достигает нижней границы Крамера-Рао. Вне этого семейства UMVUE может существовать, не достигая границы.

Задание: (а) Выборка из Exp(λ): критерий факторизации для T = ΣXᵢ, UMVUE для 1/λ. (б) Bernoulli(p): UMVUE для p(1-p) через теорему Рао-Блэкуэлла начиная с оценки X₁(1-X₂). (в) N(μ,σ²): докажите что (X̄, S²) полная достаточная. UMVUE для P(X > c) = 1-Φ((c-μ)/σ)?

Теорема Рао-Блэкуэлла: алгоритм применения

Для нахождения UMVUE: (1) Найти любую несмещённую оценку δ(X). (2) Найти полную достаточную статистику T. (3) Улучшить оценку: δ*(X) = E[δ(X)|T(X)]. Результат δ* — MVUE по Лемме Лемана-Шеффе.

Пример для Poisson(λ): Оценка P(X₁=0) = I(X₁=0) — несмещённая (E = e^{-λ}). Достаточная статистика T = ΣXᵢ ~ Poisson(nλ). E[I(X₁=0)|T=t] = ((n-1)/n)^t = (1−1/n)^t. Это MVUE для e^{-λ}. Более эффективна, чем e^{-X̄}: Var[MVUE] < Var[e^{-X̄}] при конечных n.

Оптимальность и нижние оценки дисперсии

Граница Рао-Крамера (неравенство информации): Var_{θ}(θ̂) ≥ 1/(n·I(θ)) для несмещённых θ̂. Здесь I(θ) = E[(∂ ln f/∂θ)²] = -E[∂²ln f/∂θ²]. Достигается тогда и только тогда, когда θ̂ — функция от достаточной статистики экспоненциального семейства.

Граница Хамерли-Чепмана: Обобщение на небольшие выборки. Для матричного параметра: граница информации Фишера — матрица I(θ), Var[θ̂] ≥ I(θ)^{-1} (в смысле положительной полуопределённости).

Методы робастной оценки

M-оценки: θ̂ = argmin Σ ρ(xᵢ−θ) где ρ — функция потерь. Квадратичные потери ρ(u)=u² → среднее. Абсолютные ρ(u)=|u| → медиана. Хьюбера: ρ(u) = u²/2 при |u| ≤ c, c|u|−c²/2 при |u|>c — компромисс между устойчивостью и эффективностью.

Асимптотика M-оценок: √n(θ̂−θ) → N(0, E[ψ²]/(E[ψ'])²), где ψ = ρ'. Оптимальный ρ для данного F — log-плотность: максимальноправдоподобная оценка. ARE(M-оценка, среднее) зависит от F и выбора ρ.

Достаточность в многомерных моделях

Для многомерного параметра θ ∈ ℝᵖ достаточность определяется аналогично. Минимальная достаточная статистика T: достаточна и является функцией от любой другой достаточной статистики. Для экспоненциального семейства: T(X) = (Σt₁(Xᵢ),...,Σtₖ(Xᵢ)) — минимальная достаточная.

Пример: для нормального N(μ,σ²) (оба параметра неизвестны): T = (X̄, S²) = (Σxᵢ/n, Σ(xᵢ−x̄)²/(n-1)) — полная достаточная. Теорема Байхена: X̄ и S² независимы. UMVUE для μ: X̄. UMVUE для σ²: S². UMVUE для P(X > c): сложная функция от T.

Пример применения теоремы Рао-Блэкуэлла

Выборка из Geometric(p) (число испытаний до успеха). Начальная оценка: δ(X₁,...,Xₙ) = I(X₁ = 1) — несмещённая для p. Достаточная статистика: T = ΣXᵢ (суммарное число испытаний). Улучшенная оценка: δ*(T) = E[I(X₁=1)|T=t] = P(X₁=1, X₂+...+Xₙ=t-1)/P(T=t). Это — MVUE для p, более эффективная чем любая другая несмещённая оценка.

Численный пример: теорема Рао-Блэкуэлла

Задача: X₁,...,X₄ ~ Bernoulli(p). T=ΣXᵢ~Binomial(4,p). Улучшить δ(X)=X₁ через условное ожидание.

Шаг 1: δ(X)=X₁ несмещена: E[X₁]=p. Var[X₁]=p(1−p). Достаточная статистика: T=X₁+X₂+X₃+X₄.

Шаг 2: δ*(T)=E[X₁|T=t]=P(X₁=1|T=t)=P(X₁=1, X₂+X₃+X₄=t−1)/P(T=t).

Шаг 3: Числитель: p·C(3,t−1)pᵗ⁻¹(1−p)^{3−(t−1)}. Знаменатель: C(4,t)pᵗ(1−p)^{4−t}. Частное: δ*(t)=C(3,t−1)/C(4,t)=t/4.

Шаг 4: δ*(T)=T/4=X̄ — выборочное среднее! Var[X̄]=p(1−p)/4 < Var[X₁]=p(1−p). При p=0.5: Var[X₁]=0.25, Var[X̄]=0.0625 — дисперсия уменьшилась в 4 раза. Теорема Рао-Блэкуэлла: обусловливание на достаточной статистике всегда улучшает (не ухудшает) оценку.