Модуль IX·Статья III·~5 мин чтения
Корреляция и регрессионный анализ
Количественный анализ данных
Превратить статью в подкаст
Выберите голоса, формат и длину — AI запишет аудио
Корреляция и регрессионный анализ
Понятие корреляции
Корреляция — это статистическая мера, описывающая степень и направление линейной связи между двумя переменными. Корреляционный анализ позволяет ответить на вопрос: изменяются ли две переменные согласованно?
Типы корреляционных связей
- Положительная корреляция — при увеличении одной переменной другая также увеличивается (например, количество часов подготовки и результат экзамена)
- Отрицательная корреляция — при увеличении одной переменной другая уменьшается (например, уровень стресса и качество сна)
- Отсутствие корреляции — изменения одной переменной не связаны систематически с изменениями другой (коэффициент корреляции близок к нулю)
Коэффициент корреляции Пирсона (r)
Коэффициент Пирсона (Pearson's r) измеряет силу и направление линейной связи между двумя интервальными или отношенческими (ratio) переменными. Значения r варьируются от −1 до +1.
Когда использовать: обе переменные измерены на интервальной/отношенческой шкале; связь между переменными линейная; данные приблизительно нормально распределены; отсутствуют значительные выбросы.
Шаги в SPSS: Analyze → Correlate → Bivariate → перенести переменные в список Variables → убедиться, что отмечен Pearson → выбрать тип проверки (Two-tailed или One-tailed) → OK.
Интерпретация вывода: SPSS выводит корреляционную матрицу. Для каждой пары переменных отображаются: коэффициент корреляции (r), значение Sig. (2-tailed) — p-value, количество наблюдений (N). Если p < 0,05, корреляция статистически значима.
Ранговая корреляция Спирмена (ρ)
Коэффициент Спирмена (Spearman's rho, ρ) — непараметрическая мера корреляции, основанная на рангах наблюдений. Он оценивает монотонную (не обязательно линейную) связь между переменными.
Когда использовать: одна или обе переменные измерены на порядковой (ordinal) шкале; распределение данных существенно отклоняется от нормального; связь монотонная, но не линейная; имеются значительные выбросы.
В SPSS: в окне Bivariate Correlations отметить Spearman вместо (или в дополнение к) Pearson. Интерпретация аналогична: значение ρ, p-value и N.
Интерпретация силы корреляции
Рекомендации Коэна (Cohen, 1988) для интерпретации абсолютного значения коэффициента корреляции:
| |r| или |ρ| | Сила связи | |---|---| | 0,10 – 0,29 | Слабая корреляция | | 0,30 – 0,49 | Умеренная корреляция | | 0,50 – 1,00 | Сильная корреляция |
Важно: эти границы являются ориентировочными. В некоторых областях исследований (например, в психологии) корреляция r = 0,30 может считаться практически значимой, тогда как в физике такое значение было бы незначительным.
Коэффициент детерминации r² показывает долю дисперсии одной переменной, объяснённую другой. Например, r = 0,50 означает r² = 0,25, то есть 25% вариации одной переменной объясняется связью с другой.
Корреляция не означает причинно-следственную связь
Обнаружение корреляции между двумя переменными не доказывает, что одна является причиной другой. Возможные объяснения корреляции:
- Переменная A влияет на B (прямая причинность)
- Переменная B влияет на A (обратная причинность)
- Третья переменная C влияет на обе (ложная корреляция, confounding variable)
- Случайное совпадение (особенно при большом числе проверяемых связей)
Пример: существует корреляция между продажами мороженого и количеством утоплений. Это не означает, что мороженое вызывает утопления — обе переменные связаны с третьей: жаркой погодой.
Критерий хи-квадрат (χ²) для категориальных данных
Когда обе переменные являются категориальными (номинальными), используется критерий хи-квадрат для проверки независимости переменных.
Гипотезы: H₀: переменные независимы (нет связи); H₁: переменные связаны.
Шаги в SPSS: Analyze → Descriptive Statistics → Crosstabs → перенести переменные в Row(s) и Column(s) → нажать Statistics → отметить Chi-square → OK.
Интерпретация: в таблице Chi-Square Tests смотрите строку «Pearson Chi-Square». Если Asymp. Sig. (2-sided) < 0,05, переменные статистически значимо связаны. Условие применимости: ожидаемые частоты в каждой ячейке должны быть ≥ 5 (минимум в 80% ячеек).
Простая линейная регрессия
Регрессионный анализ позволяет не только установить наличие связи, но и предсказать значение одной переменной на основе другой. Простая линейная регрессия моделирует связь между одной независимой (предиктором, X) и одной зависимой (Y) переменной.
Уравнение регрессии: Y = a + bX, где a — константа (intercept, значение Y при X = 0), b — коэффициент регрессии (slope, изменение Y при изменении X на единицу).
Коэффициент детерминации R² показывает, какую долю дисперсии зависимой переменной объясняет модель. R² = 0,45 означает, что 45% вариации Y объясняется предиктором X.
Проведение регрессии в SPSS
Шаги: Analyze → Regression → Linear → перенести зависимую переменную в Dependent → перенести предиктор в Independent(s) → OK.
Интерпретация вывода SPSS:
- Model Summary: R, R², Adjusted R² — показывают качество модели
- ANOVA table: F-статистика и Sig. — проверяет значимость модели в целом. Если Sig. < 0,05, модель статистически значима
- Coefficients table: значения a (Constant) и b (коэффициент предиктора), стандартные ошибки, t-статистика и p-value для каждого коэффициента. Столбец B содержит нестандартизированные коэффициенты, Beta — стандартизированные
Пример интерпретации: если b = 2,3 для переменной «часы подготовки», это означает, что каждый дополнительный час подготовки ассоциируется с увеличением результата экзамена в среднем на 2,3 балла (при прочих равных условиях).
Множественная регрессия: введение
Множественная линейная регрессия расширяет простую регрессию, включая несколько предикторов: Y = a + b₁X₁ + b₂X₂ + ... + bₖXₖ.
Преимущества: позволяет контролировать влияние других переменных; оценивает уникальный вклад каждого предиктора; повышает точность предсказания.
Стандартизированные коэффициенты (Beta) позволяют сравнивать относительную важность предикторов, измеренных в разных единицах. Чем больше абсолютное значение Beta, тем сильнее влияние предиктора.
Мультиколлинеарность — проблема, возникающая при высокой корреляции между предикторами. Проверяется в SPSS через Statistics → Collinearity diagnostics. Значение VIF (Variance Inflation Factor) > 10 указывает на мультиколлинеарность.
Практические задания
Задание 1. Исследователь получил r = 0,42 (p = 0,003, n = 48) между количеством часов сна и академической успеваемостью. Интерпретируйте результат: определите силу корреляции по Коэну, рассчитайте r² и объясните его значение. Решение: умеренная положительная корреляция; r² = 0,176, то есть примерно 17,6% вариации успеваемости объясняется количеством часов сна. Связь статистически значима (p < 0,05).
Задание 2. В исследовании обнаружена сильная положительная корреляция (r = 0,78) между количеством пожарных машин, прибывших на место, и размером ущерба от пожара. Можно ли заключить, что пожарные машины увеличивают ущерб? Решение: нет, это пример ложной корреляции. Третья переменная — масштаб пожара — влияет на обе: крупные пожары требуют больше машин и причиняют больший ущерб.
Задание 3. По результатам регрессионного анализа получено уравнение: Оценка = 45,2 + 3,1 × Часы_подготовки (R² = 0,38, p < 0,001). Интерпретируйте: (а) значение константы, (б) коэффициент регрессии, (в) R². Решение: (а) при нулевой подготовке ожидаемая оценка составляет 45,2 балла; (б) каждый дополнительный час подготовки ассоциируется с увеличением оценки на 3,1 балла; (в) модель объясняет 38% вариации оценок.
Задание 4. Исследователь хочет изучить связь между полом (мужской/женский) и предпочтением формата обучения (онлайн/офлайн). Какой статистический тест следует использовать и почему? Решение: критерий хи-квадрат, поскольку обе переменные являются категориальными (номинальными). Корреляция Пирсона или Спирмена не подходят для номинальных данных.
§ Акт · что дальше