Корреляция и регрессионный анализ

Понятие корреляции

Корреляция — это статистическая мера, описывающая степень и направление линейной связи между двумя переменными. Корреляционный анализ позволяет ответить на вопрос: изменяются ли две переменные согласованно?

Типы корреляционных связей

Положительная корреляция — при увеличении одной переменной другая также увеличивается (например, количество часов подготовки и результат экзамена)
Отрицательная корреляция — при увеличении одной переменной другая уменьшается (например, уровень стресса и качество сна)
Отсутствие корреляции — изменения одной переменной не связаны систематически с изменениями другой (коэффициент корреляции близок к нулю)

Коэффициент корреляции Пирсона (r)

Коэффициент Пирсона (Pearson's r) измеряет силу и направление линейной связи между двумя интервальными или отношенческими (ratio) переменными. Значения r варьируются от −1 до +1.

Когда использовать: обе переменные измерены на интервальной/отношенческой шкале; связь между переменными линейная; данные приблизительно нормально распределены; отсутствуют значительные выбросы.

Шаги в SPSS: Analyze → Correlate → Bivariate → перенести переменные в список Variables → убедиться, что отмечен Pearson → выбрать тип проверки (Two-tailed или One-tailed) → OK.

Интерпретация вывода: SPSS выводит корреляционную матрицу. Для каждой пары переменных отображаются: коэффициент корреляции (r), значение Sig. (2-tailed) — p-value, количество наблюдений (N). Если p < 0,05, корреляция статистически значима.

Ранговая корреляция Спирмена (ρ)

Коэффициент Спирмена (Spearman's rho, ρ) — непараметрическая мера корреляции, основанная на рангах наблюдений. Он оценивает монотонную (не обязательно линейную) связь между переменными.

Когда использовать: одна или обе переменные измерены на порядковой (ordinal) шкале; распределение данных существенно отклоняется от нормального; связь монотонная, но не линейная; имеются значительные выбросы.

В SPSS: в окне Bivariate Correlations отметить Spearman вместо (или в дополнение к) Pearson. Интерпретация аналогична: значение ρ, p-value и N.

Интерпретация силы корреляции

Рекомендации Коэна (Cohen, 1988) для интерпретации абсолютного значения коэффициента корреляции:

| |r| или |ρ| | Сила связи | |---|---| | 0,10 – 0,29 | Слабая корреляция | | 0,30 – 0,49 | Умеренная корреляция | | 0,50 – 1,00 | Сильная корреляция |

Важно: эти границы являются ориентировочными. В некоторых областях исследований (например, в психологии) корреляция r = 0,30 может считаться практически значимой, тогда как в физике такое значение было бы незначительным.

Коэффициент детерминации r² показывает долю дисперсии одной переменной, объяснённую другой. Например, r = 0,50 означает r² = 0,25, то есть 25% вариации одной переменной объясняется связью с другой.

Корреляция не означает причинно-следственную связь

Обнаружение корреляции между двумя переменными не доказывает, что одна является причиной другой. Возможные объяснения корреляции:

Переменная A влияет на B (прямая причинность)
Переменная B влияет на A (обратная причинность)
Третья переменная C влияет на обе (ложная корреляция, confounding variable)
Случайное совпадение (особенно при большом числе проверяемых связей)

Пример: существует корреляция между продажами мороженого и количеством утоплений. Это не означает, что мороженое вызывает утопления — обе переменные связаны с третьей: жаркой погодой.

Критерий хи-квадрат (χ²) для категориальных данных

Когда обе переменные являются категориальными (номинальными), используется критерий хи-квадрат для проверки независимости переменных.

Гипотезы: H₀: переменные независимы (нет связи); H₁: переменные связаны.

Шаги в SPSS: Analyze → Descriptive Statistics → Crosstabs → перенести переменные в Row(s) и Column(s) → нажать Statistics → отметить Chi-square → OK.

Интерпретация: в таблице Chi-Square Tests смотрите строку «Pearson Chi-Square». Если Asymp. Sig. (2-sided) < 0,05, переменные статистически значимо связаны. Условие применимости: ожидаемые частоты в каждой ячейке должны быть ≥ 5 (минимум в 80% ячеек).

Простая линейная регрессия

Регрессионный анализ позволяет не только установить наличие связи, но и предсказать значение одной переменной на основе другой. Простая линейная регрессия моделирует связь между одной независимой (предиктором, X) и одной зависимой (Y) переменной.

Уравнение регрессии: Y = a + bX, где a — константа (intercept, значение Y при X = 0), b — коэффициент регрессии (slope, изменение Y при изменении X на единицу).

Коэффициент детерминации R² показывает, какую долю дисперсии зависимой переменной объясняет модель. R² = 0,45 означает, что 45% вариации Y объясняется предиктором X.

Проведение регрессии в SPSS

Шаги: Analyze → Regression → Linear → перенести зависимую переменную в Dependent → перенести предиктор в Independent(s) → OK.

Интерпретация вывода SPSS:

Model Summary: R, R², Adjusted R² — показывают качество модели
ANOVA table: F-статистика и Sig. — проверяет значимость модели в целом. Если Sig. < 0,05, модель статистически значима
Coefficients table: значения a (Constant) и b (коэффициент предиктора), стандартные ошибки, t-статистика и p-value для каждого коэффициента. Столбец B содержит нестандартизированные коэффициенты, Beta — стандартизированные

Пример интерпретации: если b = 2,3 для переменной «часы подготовки», это означает, что каждый дополнительный час подготовки ассоциируется с увеличением результата экзамена в среднем на 2,3 балла (при прочих равных условиях).

Множественная регрессия: введение

Множественная линейная регрессия расширяет простую регрессию, включая несколько предикторов: Y = a + b₁X₁ + b₂X₂ + ... + bₖXₖ.

Преимущества: позволяет контролировать влияние других переменных; оценивает уникальный вклад каждого предиктора; повышает точность предсказания.

Стандартизированные коэффициенты (Beta) позволяют сравнивать относительную важность предикторов, измеренных в разных единицах. Чем больше абсолютное значение Beta, тем сильнее влияние предиктора.

Мультиколлинеарность — проблема, возникающая при высокой корреляции между предикторами. Проверяется в SPSS через Statistics → Collinearity diagnostics. Значение VIF (Variance Inflation Factor) > 10 указывает на мультиколлинеарность.

Практические задания

Задание 1. Исследователь получил r = 0,42 (p = 0,003, n = 48) между количеством часов сна и академической успеваемостью. Интерпретируйте результат: определите силу корреляции по Коэну, рассчитайте r² и объясните его значение. Решение: умеренная положительная корреляция; r² = 0,176, то есть примерно 17,6% вариации успеваемости объясняется количеством часов сна. Связь статистически значима (p < 0,05).

Задание 2. В исследовании обнаружена сильная положительная корреляция (r = 0,78) между количеством пожарных машин, прибывших на место, и размером ущерба от пожара. Можно ли заключить, что пожарные машины увеличивают ущерб? Решение: нет, это пример ложной корреляции. Третья переменная — масштаб пожара — влияет на обе: крупные пожары требуют больше машин и причиняют больший ущерб.

Задание 3. По результатам регрессионного анализа получено уравнение: Оценка = 45,2 + 3,1 × Часы_подготовки (R² = 0,38, p < 0,001). Интерпретируйте: (а) значение константы, (б) коэффициент регрессии, (в) R². Решение: (а) при нулевой подготовке ожидаемая оценка составляет 45,2 балла; (б) каждый дополнительный час подготовки ассоциируется с увеличением оценки на 3,1 балла; (в) модель объясняет 38% вариации оценок.

Задание 4. Исследователь хочет изучить связь между полом (мужской/женский) и предпочтением формата обучения (онлайн/офлайн). Какой статистический тест следует использовать и почему? Решение: критерий хи-квадрат, поскольку обе переменные являются категориальными (номинальными). Корреляция Пирсона или Спирмена не подходят для номинальных данных.