Доверительные интервалы и t-тесты

Доверительные интервалы: понятие и интерпретация

Доверительный интервал (Confidence Interval, CI) — это диапазон значений, в пределах которого с определённой вероятностью находится истинное значение параметра генеральной совокупности. Доверительный интервал строится на основе выборочных данных и отражает неопределённость, связанную с использованием выборки вместо генеральной совокупности.

Ключевые компоненты доверительного интервала

Точечная оценка (Point Estimate) — значение статистики, вычисленное по выборке (например, среднее арифметическое X̄)
Уровень доверия (Confidence Level) — вероятность того, что интервал содержит истинный параметр (обычно 95% или 99%)
Предел погрешности (Margin of Error) — величина, прибавляемая и вычитаемая из точечной оценки

Формула для CI среднего: CI = X̄ ± t(α/2) × (s / √n), где X̄ — выборочное среднее, t(α/2) — критическое значение t-распределения, s — стандартное отклонение выборки, n — размер выборки.

Правильная интерпретация

Правильно: «Мы на 95% уверены, что истинное среднее генеральной совокупности находится в интервале от 4,2 до 5,8.»

Неправильно: «Существует 95% вероятность того, что среднее находится в данном интервале.» Истинное среднее — фиксированная величина, а не случайная переменная.

Связь доверительных интервалов и проверки гипотез

Доверительные интервалы и проверка гипотез тесно связаны. Если 95% доверительный интервал для разности средних не включает ноль, это эквивалентно отклонению нулевой гипотезы (H₀: μ₁ = μ₂) на уровне значимости α = 0,05. Доверительные интервалы предоставляют больше информации, чем простое значение p, поскольку показывают диапазон правдоподобных значений параметра и направление эффекта.

t-тест для одной выборки (One-Sample t-test)

Одновыборочный t-тест проверяет, отличается ли среднее значение выборки от известного (гипотетического) значения генеральной совокупности.

Когда использовать: когда необходимо сравнить среднее одной группы с заданным эталонным значением (например, средний балл студентов с нормативным значением 70).

Гипотезы: H₀: μ = μ₀ (среднее равно эталонному значению); H₁: μ ≠ μ₀ (среднее отличается от эталонного).

Шаги в SPSS: Analyze → Compare Means → One-Sample T Test → перенести переменную в список Test Variable(s) → указать Test Value → нажать OK.

Интерпретация вывода SPSS: таблица содержит значение t-статистики, степени свободы (df = n − 1), значение Sig. (2-tailed) — это p-value. Если p < 0,05, нулевая гипотеза отклоняется. Также отображается разность средних (Mean Difference) и 95% доверительный интервал этой разности.

t-тест для независимых выборок (Independent Samples t-test)

Этот тест сравнивает средние значения двух независимых (несвязанных) групп. Например, сравнение результатов экзамена между мужчинами и женщинами, или между экспериментальной и контрольной группами.

Гипотезы: H₀: μ₁ = μ₂ (средние двух групп равны); H₁: μ₁ ≠ μ₂ (средние различаются).

Тест Левена (Levene's Test)

Перед интерпретацией t-теста SPSS автоматически выполняет тест Левена на равенство дисперсий. Если Sig. теста Левена > 0,05, используйте строку «Equal variances assumed». Если Sig. < 0,05, дисперсии неравны — используйте строку «Equal variances not assumed» (применяется поправка Уэлча).

Шаги в SPSS: Analyze → Compare Means → Independent-Samples T Test → перенести зависимую переменную в Test Variable(s) → перенести группирующую переменную в Grouping Variable → нажать Define Groups и указать коды групп → OK.

t-тест для парных (зависимых) выборок (Paired Samples t-test)

Парный t-тест используется, когда измерения проводятся на одних и тех же испытуемых в двух условиях или в два момента времени (дизайн «до и после», pre-test / post-test).

Пример: оценка эффективности тренинга путём сравнения результатов теста до и после обучения у одних и тех же участников.

Гипотезы: H₀: μ_d = 0 (средняя разность равна нулю); H₁: μ_d ≠ 0 (средняя разность отличается от нуля).

Шаги в SPSS: Analyze → Compare Means → Paired-Samples T Test → перенести пару переменных (до/после) в список Paired Variables → OK.

Интерпретация: SPSS выводит среднюю разность (Mean), стандартное отклонение разностей, t-статистику и p-value. Если p < 0,05, существует статистически значимое различие между измерениями.

Размер эффекта: d Коэна (Cohen's d)

Статистическая значимость (p-value) указывает лишь на наличие эффекта, но не на его практическую значимость. Для оценки величины эффекта используется d Коэна.

Формула: d = (M₁ − M₂) / SD_pooled, где SD_pooled — объединённое стандартное отклонение.

Интерпретация по Коэну:

Значение d	Интерпретация
0,2	Малый эффект
0,5	Средний эффект
0,8	Большой эффект

SPSS не вычисляет d Коэна автоматически — его можно рассчитать вручную или с помощью онлайн-калькуляторов по значениям средних и стандартных отклонений из вывода SPSS.

Проверка допущений (Assumptions)

Нормальность распределения

t-тесты предполагают, что данные приблизительно нормально распределены. Методы проверки: тест Шапиро-Уилка (Shapiro-Wilk) в SPSS: Analyze → Descriptive Statistics → Explore → Plots → отметить Normality plots with tests. Если p > 0,05, распределение не отличается значимо от нормального. При n > 30 t-тест устойчив к нарушениям нормальности (центральная предельная теорема).

Однородность дисперсий

Для независимого t-теста предполагается равенство дисперсий в двух группах. Проверяется тестом Левена (выводится автоматически в SPSS). При неравных дисперсиях используется поправка Уэлча (Welch's correction).

Введение в дисперсионный анализ (ANOVA)

Когда необходимо сравнить средние более чем двух групп, t-тест неприменим (множественные сравнения увеличивают вероятность ошибки I рода). В этом случае используется однофакторный дисперсионный анализ (One-Way ANOVA).

Логика ANOVA: сравнивается дисперсия между группами (межгрупповая) с дисперсией внутри групп (внутригрупповая). Если межгрупповая дисперсия значительно превышает внутригрупповую, делается вывод о значимых различиях.

Шаги в SPSS: Analyze → Compare Means → One-Way ANOVA → указать зависимую и факторную переменные → Post Hoc → выбрать тесты (Tukey, Bonferroni) → OK.

Post-hoc тесты (Tukey HSD, Bonferroni) проводятся после значимого результата ANOVA для определения, между какими именно группами существуют различия, с коррекцией на множественные сравнения.

Практические задания

Задание 1. Средний балл студентов по методам исследования составил 72,5 (SD = 8,3, n = 40). Проверьте, отличается ли этот результат от нормативного значения 70 баллов. Рассчитайте t-статистику: t = (72,5 − 70) / (8,3 / √40) = 2,5 / 1,313 = 1,904. При df = 39 критическое значение t(0,025) ≈ 2,023. Поскольку 1,904 < 2,023, нулевая гипотеза не отклоняется (p > 0,05). Средний балл статистически не отличается от 70.

Задание 2. Экспериментальная группа (n = 25, M = 78, SD = 10) и контрольная группа (n = 25, M = 72, SD = 12). Рассчитайте d Коэна: SD_pooled = √((10² + 12²) / 2) = √(122) ≈ 11,05. d = (78 − 72) / 11,05 ≈ 0,54. Это средний размер эффекта по классификации Коэна.

Задание 3. Преподаватель измерил уровень тревожности студентов до (M = 45,2, SD = 9,1) и после (M = 38,6, SD = 8,7) курса релаксации (n = 30). Средняя разность: 6,6 балла. Определите тип t-теста (парный) и объясните, почему именно он подходит в данной ситуации. Какие допущения необходимо проверить?