Модуль III·Статья III·~6 мин чтения

Описательная статистика и графики в SPSS

Введение в количественное исследование

Превратить статью в подкаст

Выберите голоса, формат и длину — AI запишет аудио

Описательная статистика и графики в SPSS

Меры центральной тенденции

Меры центральной тенденции показывают «типичное» или «центральное» значение в наборе данных. Выбор подходящей меры зависит от типа данных и распределения.

Среднее арифметическое (Mean)

  • Формула: x̄ = Σxᵢ / n
  • Когда использовать: для интервальных и данных отношений с приблизительно нормальным распределением
  • Ограничения: чувствительно к выбросам — одно экстремальное значение может существенно сместить среднее
  • Пример: средняя зарплата 10 сотрудников — информативна, если нет резких выбросов

Медиана (Median)

  • Определение: значение, которое делит упорядоченный ряд данных ровно пополам
  • Когда использовать: при наличии выбросов, для скошенных распределений, для порядковых данных
  • Преимущество: устойчива к экстремальным значениям
  • Пример: медианный доход лучше характеризует «типичный» доход населения, чем средний, поскольку доходы распределены с правым скосом

Мода (Mode)

  • Определение: наиболее часто встречающееся значение в наборе данных
  • Когда использовать: для номинальных данных (единственная применимая мера центральной тенденции), при мультимодальных распределениях
  • Особенности: может быть несколько мод (бимодальное, мультимодальное распределение) или не быть моды вовсе

Сравнение мер при различных распределениях

  • Симметричное распределение: Mean ≈ Median ≈ Mode
  • Правый скос (положительная асимметрия): Mean > Median > Mode
  • Левый скос (отрицательная асимметрия): Mean < Median < Mode

Меры разброса (дисперсии)

Меры разброса показывают, насколько значения отклоняются от центра распределения.

Размах (Range)

  • Формула: Range = Max − Min
  • Простейшая мера, но учитывает только два крайних значения и очень чувствительна к выбросам

Дисперсия (Variance)

  • Формула выборочной дисперсии: s² = Σ(xᵢ − x̄)² / (n − 1)
  • Показывает средний квадрат отклонений от среднего
  • Деление на (n − 1) вместо n — поправка Бесселя для несмещённой оценки генеральной дисперсии

Стандартное отклонение (Standard Deviation)

  • Формула: s = √s²
  • Наиболее часто используемая мера разброса, выражена в тех же единицах, что и исходные данные
  • Интерпретация: чем больше SD, тем больше разброс данных; малое SD указывает на то, что значения сконцентрированы вблизи среднего

Межквартильный размах (IQR)

  • Формула: IQR = Q3 − Q1 (разница между 75-м и 25-м процентилями)
  • Устойчив к выбросам, часто используется вместе с медианой

Меры формы распределения

Асимметрия (Skewness)

  • Показывает степень отклонения распределения от симметрии
  • Skewness = 0 — симметричное распределение
  • Skewness > 0 — правый скос (хвост вытянут вправо, большинство значений слева)
  • Skewness < 0 — левый скос (хвост вытянут влево)
  • Правило: если |Skewness| < 1, асимметрия умеренная; если > 1 — существенная

Эксцесс (Kurtosis)

  • Показывает «остроту» или «плоскость» распределения по сравнению с нормальным
  • Kurtosis = 0 — нормальное распределение (мезокуртическое)
  • Kurtosis > 0 — островершинное распределение (лептокуртическое), тяжёлые хвосты
  • Kurtosis < 0 — плосковершинное распределение (платикуртическое), лёгкие хвосты

Нормальное распределение и его значение

Нормальное распределение — фундаментальное понятие в статистике. Его свойства:

  • Симметрично относительно среднего
  • Mean = Median = Mode
  • 68,27% значений в пределах ±1 SD от среднего
  • 95,45% значений в пределах ±2 SD
  • 99,73% значений в пределах ±3 SD

Почему важно: многие параметрические тесты (t-тест, ANOVA, корреляция Пирсона, регрессия) предполагают нормальное распределение данных. Нарушение этого допущения может привести к некорректным результатам.

Проверка нормальности в SPSS:

  • Визуально: гистограмма с кривой нормального распределения, Q-Q plot
  • Статистически: тест Шапиро-Уилка (Shapiro-Wilk) для выборок n < 50, тест Колмогорова-Смирнова для больших выборок
  • Analyze → Descriptive Statistics → Explore → Plots → Normality plots with tests

Описательная статистика в SPSS

Метод 1: Frequencies (Частоты)

Analyze → Descriptive Statistics → Frequencies

  • Переместите переменные в список
  • Нажмите Statistics → выберите: Mean, Median, Mode, Std. Deviation, Variance, Skewness, Kurtosis, Minimum, Maximum
  • Нажмите Charts → выберите тип графика (гистограмма с кривой нормального распределения)
  • OK

Метод 2: Descriptives (Описательные статистики)

Analyze → Descriptive Statistics → Descriptives

  • Более компактный вывод: среднее, стандартное отклонение, минимум, максимум
  • Опция Save standardized values as variables — создаёт z-оценки (стандартизированные значения)

Метод 3: Explore (Исследование)

Analyze → Descriptive Statistics → Explore

  • Наиболее полный анализ: описательные статистики, тесты нормальности, boxplot, stem-and-leaf plot
  • Позволяет разделить анализ по группам (Factor List)

Создание графиков в SPSS

Гистограмма (Histogram)

  • Graphs → Legacy Dialogs → Histogram или через Frequencies
  • Показывает распределение непрерывной переменной
  • Опция Display normal curve накладывает кривую нормального распределения для визуальной оценки нормальности

Столбчатая диаграмма (Bar Chart)

  • Graphs → Legacy Dialogs → Bar → Simple
  • Используется для категориальных переменных
  • Показывает частоту или процент каждой категории

Ящик с усами (Boxplot)

  • Graphs → Legacy Dialogs → Boxplot или через Explore
  • Отображает: медиану (линия в центре), Q1 и Q3 (границы ящика), «усы» (1.5 × IQR), выбросы (точки за пределами усов)
  • Идеален для сравнения распределений между группами и выявления выбросов

Диаграмма рассеяния (Scatterplot)

  • Graphs → Legacy Dialogs → Scatter/Dot → Simple Scatter
  • Визуализирует связь между двумя количественными переменными
  • Позволяет добавить линию тренда (линию регрессии) через двойной клик на графике → Elements → Fit Line at Total

Интерпретация выходных таблиц SPSS

При выполнении анализа SPSS выводит результаты в окне Output Viewer. Типичная таблица описательных статистик содержит:

СтатистикаЗначениеИнтерпретация
N150Количество валидных наблюдений
Mean35,40Среднее значение возраста
Std. Deviation8,72Средний разброс от среднего
Skewness0,45Лёгкий правый скос
Std. Error of Skewness0,198Для оценки значимости асимметрии
Kurtosis−0,32Слегка плосковершинное
Minimum19Минимальный возраст
Maximum62Максимальный возраст

Совет: для оценки значимости асимметрии и эксцесса разделите их значения на стандартную ошибку. Если результат по абсолютной величине превышает 1,96 (при уровне значимости 0,05), отклонение от нормальности статистически значимо.

Таблицы частот и кросс-табуляции

Таблицы частот (Frequency Tables)

Analyze → Descriptive Statistics → Frequencies

  • Показывают количество (Frequency), процент (Percent), допустимый процент (Valid Percent) и накопленный процент (Cumulative Percent) для каждого значения переменной
  • Особенно полезны для категориальных переменных

Кросс-табуляция (Crosstabs)

Analyze → Descriptive Statistics → Crosstabs

  • Показывает совместное распределение двух категориальных переменных
  • Строки: одна переменная, столбцы: другая
  • Нажмите Cells → выберите Row percentages, Column percentages или Total percentages для более информативного анализа
  • Нажмите Statistics → выберите Chi-square для проверки связи между переменными

Пример: кросс-табуляция «Пол × Уровень удовлетворённости» покажет, различается ли распределение удовлетворённости между мужчинами и женщинами.

Практические задания

Задание 1

Вопрос: Баллы 12 студентов по тесту: 45, 52, 58, 60, 62, 65, 65, 68, 70, 75, 82, 95. Рассчитайте вручную: среднее, медиану, моду, размах и определите тип асимметрии.

Решение:

  1. Среднее: (45+52+58+60+62+65+65+68+70+75+82+95) / 12 = 797/12 = 66,42
  2. Медиана: 12 значений → среднее между 6-м (65) и 7-м (65) = 65
  3. Мода: 65 встречается 2 раза (чаще других) = 65
  4. Размах: 95 − 45 = 50
  5. Асимметрия: Mean (66,42) > Median (65) = Mode (65) → небольшой правый скос (положительная асимметрия), что объясняется выбросом 95

Задание 2

Вопрос: Опишите пошагово, как получить в SPSS описательные статистики (среднее, медиану, стандартное отклонение, асимметрию, эксцесс) для переменной «доход» и построить гистограмму с кривой нормального распределения.

Решение:

  1. Откройте файл данных в SPSS
  2. Analyze → Descriptive Statistics → Frequencies
  3. Переместите переменную «доход» в список Variable(s)
  4. Нажмите Statistics:
    • Отметьте: Mean, Median, Std. Deviation, Skewness, Kurtosis
    • Нажмите Continue
  5. Нажмите Charts:
    • Выберите Histograms
    • Отметьте Show normal curve on histogram
    • Нажмите Continue
  6. Нажмите OK
  7. В Output Viewer проанализируйте таблицу статистик и гистограмму

Задание 3

Вопрос: Значения Skewness = 1,85 и Std. Error of Skewness = 0,35 для переменной «доход». Является ли асимметрия статистически значимой? Какие рекомендации вы дадите?

Решение:

  1. Рассчитаем z-оценку асимметрии: z = 1,85 / 0,35 = 5,29
  2. Поскольку |5,29| > 1,96, асимметрия статистически значима (p < 0,05)
  3. Положительное значение (1,85 > 1) указывает на существенный правый скос
  4. Рекомендации:
    • Использовать медиану вместо среднего для описания центральной тенденции
    • Рассмотреть логарифмическое преобразование (LN или LOG10) для нормализации распределения
    • При использовании параметрических тестов — проверить устойчивость результатов с помощью непараметрических альтернатив (например, U-тест Манна-Уитни вместо t-теста)

§ Акт · что дальше