Линейная регрессия и дисперсионный анализ

Линейная регрессия моделирует зависимость между переменными и является важнейшим инструментом прикладной статистики. Дисперсионный анализ обобщает t-тест на несколько групп.

Простая линейная регрессия

Модель: Yi = β₀ + β₁xᵢ + εᵢ, εᵢ ~ N(0, σ²) i.i.d. МНК-оценки: β̂₁ = Σ(xᵢ-x̄)(yᵢ-ȳ)/Σ(xᵢ-x̄)², β̂₀ = ȳ - β̂₁x̄.

Теорема Гаусса-Маркова: β̂ — BLUE (best linear unbiased estimator) среди всех линейных несмещённых оценок. Var[β̂₁] = σ²/Σ(xᵢ-x̄)². S² = RSS/(n-2) — несмещённая оценка σ².

Коэффициент детерминации R²: R² = 1 - RSS/TSS, RSS = Σ(yᵢ-ŷᵢ)², TSS = Σ(yᵢ-ȳ)². R² = cor(y, ŷ)² при простой регрессии. Доля объяснённой вариации ∈ [0,1].

Тест значимости β₁: H₀: β₁=0. T = β̂₁/SE(β̂₁) ~ t(n-2), SE(β̂₁) = s/√Σ(xᵢ-x̄)². |T| > t_{α/2,n-2} → отвергаем H₀.

Множественная линейная регрессия

Матричная форма: Y = Xβ + ε. МНК: β̂ = (XᵀX)⁻¹XᵀY. Ĥ = X(XᵀX)⁻¹Xᵀ — матрица проекции. Var[β̂] = σ²(XᵀX)⁻¹.

F-тест: H₀: β₁=...=βₚ=0. F = (SSR/p)/(RSS/(n-p-1)) ~ F(p, n-p-1) при H₀. Скорректированный R² = 1 - (RSS/(n-p-1))/(TSS/(n-1)) — не растёт автоматически при добавлении предикторов.

Диагностика: Мультиколлинеарность: VIF_j = 1/(1-R²_j) > 10 — проблема. Гетероскедастичность: тест Бреуша-Пагана. Нормальность остатков: критерий Шапиро-Уилка.

Однофакторный дисперсионный анализ (ANOVA)

Задача: k групп, H₀: μ₁=...=μₖ. Разложение: SS_Total = SS_Between + SS_Within. F = [SS_B/(k-1)]/[SS_W/(n-k)] ~ F(k-1, n-k) при H₀.

Post-hoc анализ (Тьюки HSD): После значимого F-теста попарное сравнение: |ȳᵢ - ȳⱼ| > q_{α,k,n-k}/√2 · √(MS_W · (1/nᵢ + 1/nⱼ)).

Задание: (а) x=(1,2,3,4,5), y=(2.1,3.9,6.2,7.8,10.1). Найдите β̂₀, β̂₁, R², тест H₀: β₁=0. (б) Три удобрения по 6 полей: SS_B=90, SS_W=60. F-статистика, вывод при α=0.05. (в) Симулируйте F-тест при H₀ (k=3, n=15, нормальные данные) 5000 раз, постройте гистограмму против F(2,12).

Регуляризованная регрессия: Ridge и Lasso

Ridge (L2-регуляризация): β̂_Ridge = argmin {||Y−Xβ||² + λ||β||²} = (XᵀX + λI)⁻¹XᵀY. При λ→0: OLS. При λ→∞: β→0. Коэффициенты сжимаются равномерно, не обнуляются. Оптимален при корреляции предикторов.

Lasso (L1-регуляризация): β̂_Lasso = argmin {||Y−Xβ||² + λ||β||₁}. Нет замкнутой формы, решается через координатный спуск (coordinate descent). При достаточно большом λ: некоторые βⱼ = 0 (отбор переменных). Геометрически: L1-шар имеет углы → решение на углу → разреженность.

Elastic Net: комбинация L1+L2: λ₁||β||₁ + λ₂||β||². Сочетает отбор переменных (Lasso) с устойчивостью при мультиколлинеарности (Ridge). Параметры λ₁, λ₂ подбираются кросс-валидацией.

Двухфакторный ANOVA и взаимодействие

Модель: Yᵢⱼₖ = μ + αᵢ + βⱼ + (αβ)ᵢⱼ + εᵢⱼₖ. Три F-теста: фактор A, фактор B, взаимодействие A×B. Значимое взаимодействие: эффект A зависит от уровня B. Профильные графики (interaction plots): параллельные линии → нет взаимодействия; пересекающиеся → взаимодействие.

Смешанные модели (LMM): Yᵢⱼ = Xᵢⱼβ + Zᵢⱼbᵢ + εᵢⱼ, bᵢ ~ N(0,D). Случайные эффекты учитывают корреляцию внутри групп (повторные измерения, многоуровневые данные). Оценка через REML (restricted maximum likelihood). Тест случайных эффектов через LRT или permutation test.

Диагностика линейной регрессии: углублённый анализ

Точки влияния (leverage): hᵢᵢ — диагональные элементы матрицы проекции H = X(XᵀX)⁻¹Xᵀ. Среднее hᵢᵢ = p/n. Точки с hᵢᵢ > 2p/n — «высокопредставленные». Расстояние Кука Dᵢ = (β̂ − β̂₍₋ᵢ₎)ᵀ(XᵀX)(β̂ − β̂₍₋ᵢ₎)/(p·σ²) — совокупное влияние удаления i-го наблюдения. Dᵢ > 4/n — пороговое значение. Остатки Стьюдента: eᵢ* = eᵢ/(σ̂√(1−hᵢᵢ)) ~ t(n−p−1) при H₀. Если |eᵢ*| > t_{0.025, n−p−1}: выброс.

Нелинейная регрессия

Нелинейная регрессия: Yᵢ = f(xᵢ, β) + εᵢ. МНК-оценки: β̂ = argmin Σ(Yᵢ−f(xᵢ,β))². Нет замкнутой формы: итерационный алгоритм Гаусса-Ньютона: βₜ₊₁ = βₜ + (JᵀJ)⁻¹Jᵀ(Y−f(βₜ)), где J — якобиан f. Логистическая кривая: f(x,β) = β₁/(1+exp(−β₂(x−β₃))). Применяется в биологии (рост популяций), фармакокинетике (поглощение лекарств).

Пространственная регрессия и геостатистика

Кригинг (Kriging): BLUE предсказание для пространственных данных с известной ковариационной структурой. Полуисариограмма γ(h) = 0.5Var[Z(x+h)−Z(x)]. Сферическая модель, экспоненциальная модель. Ordinary Kriging: Ẑ(x₀) = Σλᵢ Z(xᵢ), Σλᵢ=1, минимизирует дисперсию предсказания. Широко применяется в геологии, метеорологии, экологии.

Причинно-следственный вывод (Causal Inference)

Разграничение корреляции и причинности. Потенциальные исходы (Rubin): Yᵢ(1) — если лечение, Yᵢ(0) — если нет. ATE = E[Y(1)−Y(0)]. «Fundamental problem»: наблюдаем лишь одно из двух. Оценка ATE из обсервационных данных: условие игнорируемости: Y(t)⊥T|X (нет скрытых конфаундеров). Метод IPW: оценка через обратную взвешенную вероятность лечения. Double-robust оценки: корректны, если хотя бы одна из двух моделей (исход или лечение) верна.

Численный пример: простая линейная регрессия

Задача: Данные (x,y): (1,2),(2,4),(3,5),(4,7). Построить ŷ=β̂₀+β̂₁x и оценить качество.

Шаг 1: x̄=(1+2+3+4)/4=2.5, ȳ=(2+4+5+7)/4=4.5.

Шаг 2: β̂₁ = Σ(xᵢ−x̄)(yᵢ−ȳ)/Σ(xᵢ−x̄)² = [(−1.5)(−2.5)+(−0.5)(−0.5)+(0.5)(0.5)+(1.5)(2.5)] / [2.25+0.25+0.25+2.25] = [3.75+0.25+0.25+3.75]/5.0 = 8.0/5.0 = 1.6.

Шаг 3: β̂₀ = ȳ − β̂₁·x̄ = 4.5 − 1.6·2.5 = 0.5. Уравнение: ŷ = 0.5 + 1.6x.

Шаг 4: Прогноз при x=5: ŷ=8.5. R²: SSres=Σ(yᵢ−ŷᵢ)²=(2−2.1)²+(4−3.7)²+(5−5.3)²+(7−6.9)²=0.01+0.09+0.09+0.01=0.20. SStot=Σ(yᵢ−ȳ)²=6.25+0.25+0.25+6.25=13.0. R²=1−0.20/13.0≈0.985 — превосходное соответствие.