Модуль III·Статья III·~6 мин чтения
Описательная статистика и графики в SPSS
Введение в количественное исследование
Превратить статью в подкаст
Выберите голоса, формат и длину — AI запишет аудио
Описательная статистика и графики в SPSS
Меры центральной тенденции
Меры центральной тенденции показывают «типичное» или «центральное» значение в наборе данных. Выбор подходящей меры зависит от типа данных и распределения.
Среднее арифметическое (Mean)
- Формула: x̄ = Σxᵢ / n
- Когда использовать: для интервальных и данных отношений с приблизительно нормальным распределением
- Ограничения: чувствительно к выбросам — одно экстремальное значение может существенно сместить среднее
- Пример: средняя зарплата 10 сотрудников — информативна, если нет резких выбросов
Медиана (Median)
- Определение: значение, которое делит упорядоченный ряд данных ровно пополам
- Когда использовать: при наличии выбросов, для скошенных распределений, для порядковых данных
- Преимущество: устойчива к экстремальным значениям
- Пример: медианный доход лучше характеризует «типичный» доход населения, чем средний, поскольку доходы распределены с правым скосом
Мода (Mode)
- Определение: наиболее часто встречающееся значение в наборе данных
- Когда использовать: для номинальных данных (единственная применимая мера центральной тенденции), при мультимодальных распределениях
- Особенности: может быть несколько мод (бимодальное, мультимодальное распределение) или не быть моды вовсе
Сравнение мер при различных распределениях
- Симметричное распределение: Mean ≈ Median ≈ Mode
- Правый скос (положительная асимметрия): Mean > Median > Mode
- Левый скос (отрицательная асимметрия): Mean < Median < Mode
Меры разброса (дисперсии)
Меры разброса показывают, насколько значения отклоняются от центра распределения.
Размах (Range)
- Формула: Range = Max − Min
- Простейшая мера, но учитывает только два крайних значения и очень чувствительна к выбросам
Дисперсия (Variance)
- Формула выборочной дисперсии: s² = Σ(xᵢ − x̄)² / (n − 1)
- Показывает средний квадрат отклонений от среднего
- Деление на (n − 1) вместо n — поправка Бесселя для несмещённой оценки генеральной дисперсии
Стандартное отклонение (Standard Deviation)
- Формула: s = √s²
- Наиболее часто используемая мера разброса, выражена в тех же единицах, что и исходные данные
- Интерпретация: чем больше SD, тем больше разброс данных; малое SD указывает на то, что значения сконцентрированы вблизи среднего
Межквартильный размах (IQR)
- Формула: IQR = Q3 − Q1 (разница между 75-м и 25-м процентилями)
- Устойчив к выбросам, часто используется вместе с медианой
Меры формы распределения
Асимметрия (Skewness)
- Показывает степень отклонения распределения от симметрии
- Skewness = 0 — симметричное распределение
- Skewness > 0 — правый скос (хвост вытянут вправо, большинство значений слева)
- Skewness < 0 — левый скос (хвост вытянут влево)
- Правило: если |Skewness| < 1, асимметрия умеренная; если > 1 — существенная
Эксцесс (Kurtosis)
- Показывает «остроту» или «плоскость» распределения по сравнению с нормальным
- Kurtosis = 0 — нормальное распределение (мезокуртическое)
- Kurtosis > 0 — островершинное распределение (лептокуртическое), тяжёлые хвосты
- Kurtosis < 0 — плосковершинное распределение (платикуртическое), лёгкие хвосты
Нормальное распределение и его значение
Нормальное распределение — фундаментальное понятие в статистике. Его свойства:
- Симметрично относительно среднего
- Mean = Median = Mode
- 68,27% значений в пределах ±1 SD от среднего
- 95,45% значений в пределах ±2 SD
- 99,73% значений в пределах ±3 SD
Почему важно: многие параметрические тесты (t-тест, ANOVA, корреляция Пирсона, регрессия) предполагают нормальное распределение данных. Нарушение этого допущения может привести к некорректным результатам.
Проверка нормальности в SPSS:
- Визуально: гистограмма с кривой нормального распределения, Q-Q plot
- Статистически: тест Шапиро-Уилка (Shapiro-Wilk) для выборок n < 50, тест Колмогорова-Смирнова для больших выборок
- Analyze → Descriptive Statistics → Explore → Plots → Normality plots with tests
Описательная статистика в SPSS
Метод 1: Frequencies (Частоты)
Analyze → Descriptive Statistics → Frequencies
- Переместите переменные в список
- Нажмите Statistics → выберите: Mean, Median, Mode, Std. Deviation, Variance, Skewness, Kurtosis, Minimum, Maximum
- Нажмите Charts → выберите тип графика (гистограмма с кривой нормального распределения)
- OK
Метод 2: Descriptives (Описательные статистики)
Analyze → Descriptive Statistics → Descriptives
- Более компактный вывод: среднее, стандартное отклонение, минимум, максимум
- Опция Save standardized values as variables — создаёт z-оценки (стандартизированные значения)
Метод 3: Explore (Исследование)
Analyze → Descriptive Statistics → Explore
- Наиболее полный анализ: описательные статистики, тесты нормальности, boxplot, stem-and-leaf plot
- Позволяет разделить анализ по группам (Factor List)
Создание графиков в SPSS
Гистограмма (Histogram)
- Graphs → Legacy Dialogs → Histogram или через Frequencies
- Показывает распределение непрерывной переменной
- Опция Display normal curve накладывает кривую нормального распределения для визуальной оценки нормальности
Столбчатая диаграмма (Bar Chart)
- Graphs → Legacy Dialogs → Bar → Simple
- Используется для категориальных переменных
- Показывает частоту или процент каждой категории
Ящик с усами (Boxplot)
- Graphs → Legacy Dialogs → Boxplot или через Explore
- Отображает: медиану (линия в центре), Q1 и Q3 (границы ящика), «усы» (1.5 × IQR), выбросы (точки за пределами усов)
- Идеален для сравнения распределений между группами и выявления выбросов
Диаграмма рассеяния (Scatterplot)
- Graphs → Legacy Dialogs → Scatter/Dot → Simple Scatter
- Визуализирует связь между двумя количественными переменными
- Позволяет добавить линию тренда (линию регрессии) через двойной клик на графике → Elements → Fit Line at Total
Интерпретация выходных таблиц SPSS
При выполнении анализа SPSS выводит результаты в окне Output Viewer. Типичная таблица описательных статистик содержит:
| Статистика | Значение | Интерпретация |
|---|---|---|
| N | 150 | Количество валидных наблюдений |
| Mean | 35,40 | Среднее значение возраста |
| Std. Deviation | 8,72 | Средний разброс от среднего |
| Skewness | 0,45 | Лёгкий правый скос |
| Std. Error of Skewness | 0,198 | Для оценки значимости асимметрии |
| Kurtosis | −0,32 | Слегка плосковершинное |
| Minimum | 19 | Минимальный возраст |
| Maximum | 62 | Максимальный возраст |
Совет: для оценки значимости асимметрии и эксцесса разделите их значения на стандартную ошибку. Если результат по абсолютной величине превышает 1,96 (при уровне значимости 0,05), отклонение от нормальности статистически значимо.
Таблицы частот и кросс-табуляции
Таблицы частот (Frequency Tables)
Analyze → Descriptive Statistics → Frequencies
- Показывают количество (Frequency), процент (Percent), допустимый процент (Valid Percent) и накопленный процент (Cumulative Percent) для каждого значения переменной
- Особенно полезны для категориальных переменных
Кросс-табуляция (Crosstabs)
Analyze → Descriptive Statistics → Crosstabs
- Показывает совместное распределение двух категориальных переменных
- Строки: одна переменная, столбцы: другая
- Нажмите Cells → выберите Row percentages, Column percentages или Total percentages для более информативного анализа
- Нажмите Statistics → выберите Chi-square для проверки связи между переменными
Пример: кросс-табуляция «Пол × Уровень удовлетворённости» покажет, различается ли распределение удовлетворённости между мужчинами и женщинами.
Практические задания
Задание 1
Вопрос: Баллы 12 студентов по тесту: 45, 52, 58, 60, 62, 65, 65, 68, 70, 75, 82, 95. Рассчитайте вручную: среднее, медиану, моду, размах и определите тип асимметрии.
Решение:
- Среднее: (45+52+58+60+62+65+65+68+70+75+82+95) / 12 = 797/12 = 66,42
- Медиана: 12 значений → среднее между 6-м (65) и 7-м (65) = 65
- Мода: 65 встречается 2 раза (чаще других) = 65
- Размах: 95 − 45 = 50
- Асимметрия: Mean (66,42) > Median (65) = Mode (65) → небольшой правый скос (положительная асимметрия), что объясняется выбросом 95
Задание 2
Вопрос: Опишите пошагово, как получить в SPSS описательные статистики (среднее, медиану, стандартное отклонение, асимметрию, эксцесс) для переменной «доход» и построить гистограмму с кривой нормального распределения.
Решение:
- Откройте файл данных в SPSS
- Analyze → Descriptive Statistics → Frequencies
- Переместите переменную «доход» в список Variable(s)
- Нажмите Statistics:
- Отметьте: Mean, Median, Std. Deviation, Skewness, Kurtosis
- Нажмите Continue
- Нажмите Charts:
- Выберите Histograms
- Отметьте Show normal curve on histogram
- Нажмите Continue
- Нажмите OK
- В Output Viewer проанализируйте таблицу статистик и гистограмму
Задание 3
Вопрос: Значения Skewness = 1,85 и Std. Error of Skewness = 0,35 для переменной «доход». Является ли асимметрия статистически значимой? Какие рекомендации вы дадите?
Решение:
- Рассчитаем z-оценку асимметрии: z = 1,85 / 0,35 = 5,29
- Поскольку |5,29| > 1,96, асимметрия статистически значима (p < 0,05)
- Положительное значение (1,85 > 1) указывает на существенный правый скос
- Рекомендации:
- Использовать медиану вместо среднего для описания центральной тенденции
- Рассмотреть логарифмическое преобразование (LN или LOG10) для нормализации распределения
- При использовании параметрических тестов — проверить устойчивость результатов с помощью непараметрических альтернатив (например, U-тест Манна-Уитни вместо t-теста)
§ Акт · что дальше