Статистическая значимость и проверка гипотез

Инференциальная статистика

Инференциальная (выводная) статистика позволяет делать выводы о генеральной совокупности на основе данных выборки. В отличие от описательной статистики, которая просто описывает собранные данные, инференциальная статистика позволяет обобщать результаты.

Гипотезы

Нулевая гипотеза (H₀)

Утверждает, что нет значимой разницы, связи или эффекта. Это гипотеза «статус-кво», которую мы пытаемся опровергнуть.

Пример: H₀: Нет статистически значимой разницы в удовлетворённости сотрудников между офисными и удалёнными работниками.

Альтернативная гипотеза (H₁ или Hₐ)

Утверждает, что разница, связь или эффект существуют. Это гипотеза, которую мы хотим подтвердить.

Пример: H₁: Существует статистически значимая разница в удовлетворённости сотрудников между офисными и удалёнными работниками.

Статистическая значимость

p-значение (p-value) — это вероятность получить наблюдаемый результат (или более экстремальный), если нулевая гипотеза верна.

Интерпретация p-значения:

p < 0.05 — результат считается статистически значимым (стандартный порог). Нулевая гипотеза отвергается.
p < 0.01 — результат высоко значим
p < 0.001 — результат очень высоко значим
p > 0.05 — результат не значим. Нет оснований отвергнуть нулевую гипотезу.

Важно: Статистическая значимость ≠ практическая значимость. Очень маленькая разница может быть статистически значимой при большой выборке, но не иметь практического значения.

Ошибки при проверке гипотез

Ошибка I рода (Type I Error) — отвержение верной нулевой гипотезы (ложноположительный результат). Вероятность = α (обычно 0.05). Пример: Заключить, что тренинг повысил продуктивность, когда на самом деле он не имел эффекта.

Ошибка II рода (Type II Error) — неотвержение ложной нулевой гипотезы (ложноотрицательный результат). Вероятность = β. Пример: Заключить, что тренинг не имел эффекта, когда на самом деле он повысил продуктивность.

Доверительные интервалы

Доверительный интервал (Confidence Interval) — это диапазон значений, который с определённой вероятностью содержит истинное значение параметра генеральной совокупности.

95% доверительный интервал означает: если повторить исследование 100 раз, примерно в 95 случаях истинное значение попадёт в рассчитанный интервал.

Пример: Средняя удовлетворённость = 3.8 (95% CI: 3.5 – 4.1). Мы на 95% уверены, что истинная средняя удовлетворённость в генеральной совокупности находится между 3.5 и 4.1.

Основные статистические тесты

T-тест (t-test)

Сравнивает средние значения двух групп.

Независимый t-тест (Independent samples t-test) — сравнение средних двух независимых групп. Пример: Сравнение средней удовлетворённости мужчин и женщин.

Парный t-тест (Paired samples t-test) — сравнение средних для одной группы в двух условиях. Пример: Сравнение удовлетворённости сотрудников до и после тренинга.

Дисперсионный анализ ANOVA (Analysis of Variance)

Сравнивает средние значения трёх и более групп. Пример: Сравнение удовлетворённости между тремя отделами (маркетинг, финансы, IT).

Если ANOVA показывает значимую разницу (p < 0.05), это означает, что хотя бы одна пара групп значимо различается
Для определения, какие именно группы различаются, используются post-hoc тесты (Tukey, Bonferroni)

Корреляция

Измеряет силу и направление линейной связи между двумя переменными.

Коэффициент корреляции Пирсона (r):

r = +1: идеальная положительная корреляция
r = 0: нет линейной связи
r = −1: идеальная отрицательная корреляция

Интерпретация силы корреляции (по Коэну):

|r| < 0.3 — слабая
0.3 ≤ |r| < 0.5 — средняя
|r| ≥ 0.5 — сильная

Важно: Корреляция не означает причинно-следственную связь!

Регрессионный анализ

Моделирует связь между зависимой переменной и одной или несколькими независимыми переменными.

Простая линейная регрессия: Y = a + bX

Y — зависимая переменная
X — независимая переменная
a — свободный член (intercept)
b — коэффициент регрессии (угол наклона)

Множественная регрессия: Y = a + b₁X₁ + b₂X₂ + ... + bₙXₙ

R² (коэффициент детерминации) — доля дисперсии зависимой переменной, объяснённая моделью. R² = 0.45 означает, что модель объясняет 45% вариации.

Практические задания

Задание 1

Вопрос: Исследователь сравнил удовлетворённость работой в двух группах: офисные работники (n=80, M=3.9, SD=0.8) и удалённые работники (n=70, M=4.3, SD=0.7). Независимый t-тест показал: t(148) = -3.24, p = 0.001. Интерпретируйте результаты.

Решение:

p = 0.001 < 0.05 — результат статистически значим. Отвергаем нулевую гипотезу.
Существует статистически значимая разница в удовлетворённости между офисными и удалёнными работниками
Удалённые работники (M=4.3) значимо более удовлетворены, чем офисные (M=3.9)
Разница в средних = 0.4 балла по 5-балльной шкале
t = -3.24 (отрицательный, потому что первая группа имеет меньшее среднее)
df = 148 (степени свободы ≈ n₁ + n₂ − 2)
Ограничение: корреляционный дизайн не позволяет утверждать, что удалённая работа вызывает более высокую удовлетворённость (возможна самоселекция)

Задание 2

Вопрос: Коэффициент корреляции между зарплатой и удовлетворённостью работой составил r = 0.35, p = 0.002. Можно ли утверждать, что более высокая зарплата вызывает большую удовлетворённость?

Решение: Нет, нельзя утверждать причинно-следственную связь:

r = 0.35 указывает на среднюю положительную корреляцию (по классификации Коэна)
p = 0.002 < 0.05 — связь статистически значима
Однако корреляция ≠ причинность. Возможные объяснения:
- Более высокая зарплата → более высокая удовлетворённость (прямая причинная связь)
- Более высокая удовлетворённость → лучшая работа → повышение зарплаты (обратная причинность)
- Третья переменная (например, уровень образования) влияет на обе переменные (confounding variable)
Для установления причинно-следственной связи необходим экспериментальный дизайн с контролем переменных