Описательная статистика и графики в SPSS

Меры центральной тенденции

Меры центральной тенденции показывают «типичное» или «центральное» значение в наборе данных. Выбор подходящей меры зависит от типа данных и распределения.

Среднее арифметическое (Mean)

Формула: x̄ = Σxᵢ / n
Когда использовать: для интервальных и данных отношений с приблизительно нормальным распределением
Ограничения: чувствительно к выбросам — одно экстремальное значение может существенно сместить среднее
Пример: средняя зарплата 10 сотрудников — информативна, если нет резких выбросов

Медиана (Median)

Определение: значение, которое делит упорядоченный ряд данных ровно пополам
Когда использовать: при наличии выбросов, для скошенных распределений, для порядковых данных
Преимущество: устойчива к экстремальным значениям
Пример: медианный доход лучше характеризует «типичный» доход населения, чем средний, поскольку доходы распределены с правым скосом

Мода (Mode)

Определение: наиболее часто встречающееся значение в наборе данных
Когда использовать: для номинальных данных (единственная применимая мера центральной тенденции), при мультимодальных распределениях
Особенности: может быть несколько мод (бимодальное, мультимодальное распределение) или не быть моды вовсе

Сравнение мер при различных распределениях

Симметричное распределение: Mean ≈ Median ≈ Mode
Правый скос (положительная асимметрия): Mean > Median > Mode
Левый скос (отрицательная асимметрия): Mean < Median < Mode

Меры разброса (дисперсии)

Меры разброса показывают, насколько значения отклоняются от центра распределения.

Размах (Range)

Формула: Range = Max − Min
Простейшая мера, но учитывает только два крайних значения и очень чувствительна к выбросам

Дисперсия (Variance)

Формула выборочной дисперсии: s² = Σ(xᵢ − x̄)² / (n − 1)
Показывает средний квадрат отклонений от среднего
Деление на (n − 1) вместо n — поправка Бесселя для несмещённой оценки генеральной дисперсии

Стандартное отклонение (Standard Deviation)

Формула: s = √s²
Наиболее часто используемая мера разброса, выражена в тех же единицах, что и исходные данные
Интерпретация: чем больше SD, тем больше разброс данных; малое SD указывает на то, что значения сконцентрированы вблизи среднего

Межквартильный размах (IQR)

Формула: IQR = Q3 − Q1 (разница между 75-м и 25-м процентилями)
Устойчив к выбросам, часто используется вместе с медианой

Меры формы распределения

Асимметрия (Skewness)

Показывает степень отклонения распределения от симметрии
Skewness = 0 — симметричное распределение
Skewness > 0 — правый скос (хвост вытянут вправо, большинство значений слева)
Skewness < 0 — левый скос (хвост вытянут влево)
Правило: если |Skewness| < 1, асимметрия умеренная; если > 1 — существенная

Эксцесс (Kurtosis)

Показывает «остроту» или «плоскость» распределения по сравнению с нормальным
Kurtosis = 0 — нормальное распределение (мезокуртическое)
Kurtosis > 0 — островершинное распределение (лептокуртическое), тяжёлые хвосты
Kurtosis < 0 — плосковершинное распределение (платикуртическое), лёгкие хвосты

Нормальное распределение и его значение

Нормальное распределение — фундаментальное понятие в статистике. Его свойства:

Симметрично относительно среднего
Mean = Median = Mode
68,27% значений в пределах ±1 SD от среднего
95,45% значений в пределах ±2 SD
99,73% значений в пределах ±3 SD

Почему важно: многие параметрические тесты (t-тест, ANOVA, корреляция Пирсона, регрессия) предполагают нормальное распределение данных. Нарушение этого допущения может привести к некорректным результатам.

Проверка нормальности в SPSS:

Визуально: гистограмма с кривой нормального распределения, Q-Q plot
Статистически: тест Шапиро-Уилка (Shapiro-Wilk) для выборок n < 50, тест Колмогорова-Смирнова для больших выборок
Analyze → Descriptive Statistics → Explore → Plots → Normality plots with tests

Описательная статистика в SPSS

Метод 1: Frequencies (Частоты)

Analyze → Descriptive Statistics → Frequencies

Переместите переменные в список
Нажмите Statistics → выберите: Mean, Median, Mode, Std. Deviation, Variance, Skewness, Kurtosis, Minimum, Maximum
Нажмите Charts → выберите тип графика (гистограмма с кривой нормального распределения)
OK

Метод 2: Descriptives (Описательные статистики)

Analyze → Descriptive Statistics → Descriptives

Более компактный вывод: среднее, стандартное отклонение, минимум, максимум
Опция Save standardized values as variables — создаёт z-оценки (стандартизированные значения)

Метод 3: Explore (Исследование)

Analyze → Descriptive Statistics → Explore

Наиболее полный анализ: описательные статистики, тесты нормальности, boxplot, stem-and-leaf plot
Позволяет разделить анализ по группам (Factor List)

Создание графиков в SPSS

Гистограмма (Histogram)

Graphs → Legacy Dialogs → Histogram или через Frequencies
Показывает распределение непрерывной переменной
Опция Display normal curve накладывает кривую нормального распределения для визуальной оценки нормальности

Столбчатая диаграмма (Bar Chart)

Graphs → Legacy Dialogs → Bar → Simple
Используется для категориальных переменных
Показывает частоту или процент каждой категории

Ящик с усами (Boxplot)

Graphs → Legacy Dialogs → Boxplot или через Explore
Отображает: медиану (линия в центре), Q1 и Q3 (границы ящика), «усы» (1.5 × IQR), выбросы (точки за пределами усов)
Идеален для сравнения распределений между группами и выявления выбросов

Диаграмма рассеяния (Scatterplot)

Graphs → Legacy Dialogs → Scatter/Dot → Simple Scatter
Визуализирует связь между двумя количественными переменными
Позволяет добавить линию тренда (линию регрессии) через двойной клик на графике → Elements → Fit Line at Total

Интерпретация выходных таблиц SPSS

При выполнении анализа SPSS выводит результаты в окне Output Viewer. Типичная таблица описательных статистик содержит:

Статистика	Значение	Интерпретация
N	150	Количество валидных наблюдений
Mean	35,40	Среднее значение возраста
Std. Deviation	8,72	Средний разброс от среднего
Skewness	0,45	Лёгкий правый скос
Std. Error of Skewness	0,198	Для оценки значимости асимметрии
Kurtosis	−0,32	Слегка плосковершинное
Minimum	19	Минимальный возраст
Maximum	62	Максимальный возраст

Совет: для оценки значимости асимметрии и эксцесса разделите их значения на стандартную ошибку. Если результат по абсолютной величине превышает 1,96 (при уровне значимости 0,05), отклонение от нормальности статистически значимо.

Таблицы частот и кросс-табуляции

Таблицы частот (Frequency Tables)

Analyze → Descriptive Statistics → Frequencies

Показывают количество (Frequency), процент (Percent), допустимый процент (Valid Percent) и накопленный процент (Cumulative Percent) для каждого значения переменной
Особенно полезны для категориальных переменных

Кросс-табуляция (Crosstabs)

Analyze → Descriptive Statistics → Crosstabs

Показывает совместное распределение двух категориальных переменных
Строки: одна переменная, столбцы: другая
Нажмите Cells → выберите Row percentages, Column percentages или Total percentages для более информативного анализа
Нажмите Statistics → выберите Chi-square для проверки связи между переменными

Пример: кросс-табуляция «Пол × Уровень удовлетворённости» покажет, различается ли распределение удовлетворённости между мужчинами и женщинами.

Практические задания

Задание 1

Вопрос: Баллы 12 студентов по тесту: 45, 52, 58, 60, 62, 65, 65, 68, 70, 75, 82, 95. Рассчитайте вручную: среднее, медиану, моду, размах и определите тип асимметрии.

Решение:

Среднее: (45+52+58+60+62+65+65+68+70+75+82+95) / 12 = 797/12 = 66,42
Медиана: 12 значений → среднее между 6-м (65) и 7-м (65) = 65
Мода: 65 встречается 2 раза (чаще других) = 65
Размах: 95 − 45 = 50
Асимметрия: Mean (66,42) > Median (65) = Mode (65) → небольшой правый скос (положительная асимметрия), что объясняется выбросом 95

Задание 2

Вопрос: Опишите пошагово, как получить в SPSS описательные статистики (среднее, медиану, стандартное отклонение, асимметрию, эксцесс) для переменной «доход» и построить гистограмму с кривой нормального распределения.

Решение:

Откройте файл данных в SPSS
Analyze → Descriptive Statistics → Frequencies
Переместите переменную «доход» в список Variable(s)
Нажмите Statistics:
- Отметьте: Mean, Median, Std. Deviation, Skewness, Kurtosis
- Нажмите Continue
Нажмите Charts:
- Выберите Histograms
- Отметьте Show normal curve on histogram
- Нажмите Continue
Нажмите OK
В Output Viewer проанализируйте таблицу статистик и гистограмму

Задание 3

Вопрос: Значения Skewness = 1,85 и Std. Error of Skewness = 0,35 для переменной «доход». Является ли асимметрия статистически значимой? Какие рекомендации вы дадите?

Решение:

Рассчитаем z-оценку асимметрии: z = 1,85 / 0,35 = 5,29
Поскольку |5,29| > 1,96, асимметрия статистически значима (p < 0,05)
Положительное значение (1,85 > 1) указывает на существенный правый скос
Рекомендации:
- Использовать медиану вместо среднего для описания центральной тенденции
- Рассмотреть логарифмическое преобразование (LN или LOG10) для нормализации распределения
- При использовании параметрических тестов — проверить устойчивость результатов с помощью непараметрических альтернатив (например, U-тест Манна-Уитни вместо t-теста)