Проверка статистических гипотез

Проверка гипотез — формализованная процедура принятия решений на основе данных. Нулевая гипотеза H₀ отвергается или не отвергается на основе статистики критерия.

Основные понятия

Нулевая (H₀) и альтернативная (H₁) гипотезы. Уровень значимости α = P(ошибка I рода) = P(отвергнуть H₀ | H₀ верна). Мощность 1-β = P(отвергнуть H₀ | H₁ верна).

p-значение: p = P(наблюдаемая статистика или более экстремальная | H₀). Если p < α → отвергаем H₀. p-значение ≠ вероятность H₀ (ошибочная интерпретация!).

Критерии для нормального распределения

z-тест: σ известна. Z = (X̄-μ₀)/(σ/√n) ~ N(0,1). |Z| > z_{α/2} → отвергаем.

t-тест Стьюдента: σ неизвестна. T = (X̄-μ₀)/(S/√n) ~ t(n-1). |T| > t_{α/2,n-1} → отвергаем.

Двухвыборочный t-тест: H₀: μ₁ = μ₂. T = (X̄₁-X̄₂)/√(Sp²/n₁ + Sp²/n₂) ~ t(n₁+n₂-2).

Лемма Неймана-Пирсона

Теорема: Оптимальный (наимощнейший) критерий для H₀: f(x;θ₀) vs H₁: f(x;θ₁) — критерий отношения правдоподобий: L(x) = L(θ₁)/L(θ₀) > c. При заданном α → единственный наимощнейший критерий (NP-критерий).

Множественное тестирование

Проблема: При m тестах и α=0.05: P(хотя бы одна ложная тревога) ≈ 1-(1-0.05)^m → 1. FWER (Family-wise error rate) контролируется поправкой Бонферрони: αᵢ = α/m.

FDR (False Discovery Rate, Benjamini-Hochberg, 1995): Контролировать долю ложных открытий среди всех открытий. Менее строгая, более мощная при большом m. Используется в биоинформатике (экспрессия генов).

Задание: (а) 20 монет бросали по 10 раз. Для каждой H₀: p=0.5, z-тест при α=0.05. Если 3 монеты показали «значимый» результат — о чём это говорит? (б) Данные: n=25, X̄=52, S=10. Н₀: μ=50. t-статистика. p-значение при двустороннем тесте. (в) При n=100 одновременных тестов: сколько ожидается ложных открытий при α=0.05 и H₀ во всех? BH-поправка vs. Бонферрони.

Мощность критерия и размер выборки

Мощность 1−β = P(отвергнуть H₀|H₁ верна). Зависит от: размера эффекта δ = |μ−μ₀|/σ, уровня значимости α, размера выборки n. Формула для t-теста: n = (z_{α/2} + z_β)²σ²/δ². При δ=0.5σ (средний эффект), α=0.05, мощность=0.8: n ≈ 64. При малом эффекте δ=0.2σ: n ≈ 394.

Кривые мощности: при фиксированном n и α — функция δ. При δ→∞ мощность→1. Понимание мощности критично для планирования исследований (power analysis до сбора данных, a priori), интерпретации незначимых результатов и оценки практической значимости.

Байесовские факторы и альтернативы p-значениям

p-значение подвергается критике: не отвечает на вопрос «насколько вероятна H₀?». Байесовский фактор BF₁₀ = P(данные|H₁)/P(данные|H₀): BF > 10 — убедительно в пользу H₁; BF < 1/10 — в пользу H₀. Шкала Джеффриса. Требует априорного распределения под H₁ (информативного или дефолтного Кошини-Джеффриса).

Эффект-размер: Коэн d = (μ₁−μ₂)/σ_pooled. При d=0.2 — малый эффект; 0.5 — средний; 0.8 — большой. Отчёт только p-значения без эффект-размера неинформативен: при n→∞ любой ненулевой эффект значим.

Последовательные тесты (SPRT)

Тест Вальда (SPRT): На каждом шаге n вычисляем Λₙ = ∏ f(Xᵢ;θ₁)/f(Xᵢ;θ₀). Стоп-правило: если Λₙ ≥ B → принять H₁; если Λₙ ≤ A → принять H₀; иначе продолжить. Оптимальная граница: B ≈ (1−β)/α, A ≈ β/(1−α). SPRT — оптимален (минимальное среднее n) при фиксированных α, β — теорема Вальда-Вольфовица.

Байесовские тесты и процедуры

В байесовской парадигме H₀ и H₁ имеют вероятности: P(H₀|данные) = P(данные|H₀)P(H₀)/P(данные). Решение: принять ту гипотезу, которая имеет большую апостериорную вероятность (максимум ожидаемой корректности). При симметричных потерях — это MAP-решение.

Контрастный пример с p-значением: n=10000, X̄=50.5, S=10, H₀: μ=50. z=(50.5-50)/(10/√10000)=5, p < 10⁻⁶. Байесовский фактор: BF ≈ 1.7 (умеренное свидетельство). Причина: при очень большом n даже ничтожные эффекты дают значимые p, но байесовский анализ учитывает размер эффекта.

Множественное сравнение в клинических испытаниях

В клинических испытаниях множественное тестирование исходов требует контроля FWER. Принцип закрытых тестов (Маркус-Перитц-Гэбриэль): тест гипотезы H принять только если отвергнуть каждую более широкую гипотезу, которая включает H. Метод Холма (Holm-Bonferroni): упорядочить p-значения p₍₁₎ ≤ ... ≤ p₍ₘ₎. Отвергнуть H₍ᵢ₎ если p₍ᵢ₎ ≤ α/(m−i+1). Мощнее Бонферрони, контролирует FWER точно.

Адаптивные тесты и задачи распределённого вывода

p-value combination: для независимых тестов — метод Фишера: −2Σlog(pᵢ) ~ χ²(2m). Для зависимых — методы Browns, Kost-McDermott. Метааналитический подход: объединить несколько исследований через взвешенные z-оценки (Stouffer). Мощность метаанализа существенно выше одиночных исследований — стандарт в медицине.

Тест Неймана-Пирсона и равномерно наиболее мощные тесты

UMP-тест: существует тест, который равномерно мощнее любого другого уровня α для всех θ ∈ Θ₁. Для однопараметрических экспоненциальных семейств с монотонным отношением правдоподобий: UMP-тест существует — это тест Неймана-Пирсона. Для двусторонних гипотез UMP, как правило, не существует — требуется компромисс между мощностями в разных направлениях.

Численный пример: z-тест для среднего

Задача: Производитель заявляет μ=500 г (вес упаковки). Выборка n=25: x̄=492 г, σ=20 г (известна). Проверить H₀: μ=500 против H₁: μ≠500 при α=0.05.

Шаг 1: Тестовая статистика: z=(x̄−μ₀)/(σ/√n)=(492−500)/(20/5)=−8/4=−2.0.

Шаг 2: Критическая область (двусторонний): |z|>z_{α/2}=1.96. Так как |−2.0|=2.0>1.96, H₀ отвергается.

Шаг 3: p-значение: p=2·P(Z<−2.0)=2·Φ(−2.0)=2·0.0228=0.0456<0.05. Вывод: отклонение достоверно.

Шаг 4: Мощность при альтернативе μ=495 (δ=(495−500)/4=−1.25): β=P(принять H₀|μ=495)=P(|z|<1.96|μ=495)=Φ(1.96+1.25)−Φ(−1.96+1.25)=Φ(3.21)−Φ(−0.71)≈0.9993−0.239=0.760. Мощность=1−0.760=0.240: тест слабо различает μ=500 и μ=495 при n=25. Чтобы достичь мощности 80%, нужно n≥(σ(z_{α/2}+z_β)/δ)²=(20·(1.96+0.84)/5)²≈(11.2)²≈126.