Модуль III·Статья I·~4 мин чтения

Основы количественного исследования и статистики

Введение в количественное исследование

Превратить статью в подкаст

Выберите голоса, формат и длину — AI запишет аудио

Основы количественного исследования и статистики

Что такое количественное исследование?

Количественное исследование — это систематический подход к сбору и анализу числовых данных для описания, объяснения и прогнозирования явлений. Количественные методы основаны на измерении переменных и использовании статистических инструментов для выявления закономерностей и проверки гипотез.

Ключевые характеристики:

  • Использование числовых данных
  • Статистический анализ
  • Стремление к объективности и обобщаемости
  • Проверка заранее сформулированных гипотез (дедуктивный подход)
  • Большие выборки для обеспечения репрезентативности

Типы данных

Понимание типов данных критически важно, так как тип данных определяет, какие статистические методы можно применять.

Номинальные данные (Nominal)

Категории без порядка. Примеры: пол (мужской/женский), национальность, тип компании (частная/государственная), отрасль.

  • Допустимые операции: подсчёт частот, мода
  • Нельзя: ранжировать, вычислять среднее

Порядковые данные (Ordinal)

Категории с определённым порядком, но без равных интервалов. Примеры: уровень образования (среднее/бакалавр/магистр/PhD), шкала Лайкерта (1 = совершенно не согласен ... 5 = полностью согласен), должностной уровень.

  • Допустимые операции: медиана, квартили, ранговая корреляция
  • Нельзя: утверждать, что разница между 1 и 2 равна разнице между 3 и 4

Интервальные данные (Interval)

Числовые данные с равными интервалами, но без абсолютного нуля. Примеры: температура в Цельсиях, даты, IQ.

  • Допустимые операции: среднее, стандартное отклонение, корреляция Пирсона
  • Нельзя: говорить, что 40°C «в два раза жарче», чем 20°C

Данные отношений (Ratio)

Числовые данные с абсолютным нулём. Примеры: доход, возраст, количество сотрудников, выручка.

  • Допустимые операции: все статистические операции, включая пропорции
  • Можно: говорить, что доход 100 000 руб. в два раза больше 50 000 руб.

Описательная статистика

Меры центральной тенденции

Среднее арифметическое (Mean) — сумма всех значений, делённая на их количество.

  • Формула: x̄ = Σx / n
  • Чувствительно к выбросам
  • Подходит для интервальных и данных отношений

Медиана (Median) — значение, делящее упорядоченный ряд данных пополам.

  • Не чувствительна к выбросам
  • Подходит для порядковых и выше данных

Мода (Mode) — наиболее часто встречающееся значение.

  • Может применяться ко всем типам данных, включая номинальные

Пример расчёта

Данные о зарплатах 7 сотрудников (тыс. руб.): 30, 35, 40, 42, 45, 50, 200

  • Среднее: (30+35+40+42+45+50+200) / 7 = 63,1 тыс. руб.
  • Медиана: 42 тыс. руб. (центральное значение)
  • Мода: нет (все значения уникальны)

Обратите внимание: среднее (63,1) существенно завышено из-за выброса (200). Медиана (42) лучше отражает типичную зарплату.

Меры разброса (вариабельности)

Размах (Range) — разница между максимальным и минимальным значениями.

  • Range = Max − Min = 200 − 30 = 170

Дисперсия (Variance) — средний квадрат отклонений от среднего.

  • Формула: s² = Σ(x − x̄)² / (n − 1)

Стандартное отклонение (Standard Deviation) — квадратный корень из дисперсии.

  • Формула: s = √s²
  • Интерпретация: чем больше стандартное отклонение, тем больше разброс данных вокруг среднего

Нормальное распределение

Нормальное (гауссово) распределение — колоколообразная кривая, симметричная относительно среднего. В нормальном распределении:

  • 68% данных лежат в пределах ±1 стандартного отклонения от среднего
  • 95% — в пределах ±2 стандартных отклонений
  • 99,7% — в пределах ±3 стандартных отклонений

Многие статистические тесты предполагают нормальное распределение данных.

Графическое представление данных

Столбчатая диаграмма (Bar Chart) — для номинальных и порядковых данных. Показывает частоту каждой категории.

Гистограмма (Histogram) — для непрерывных числовых данных. Показывает распределение значений по интервалам.

Круговая диаграмма (Pie Chart) — для показа пропорций категорий в целом. Используйте с осторожностью: при большом числе категорий диаграмма становится нечитаемой.

Диаграмма рассеяния (Scatter Plot) — для визуализации связи между двумя числовыми переменными.

Ящик с усами (Box Plot) — показывает медиану, квартили, размах и выбросы. Очень полезен для сравнения распределений.

Практические задания

Задание 1

Вопрос: Определите тип данных для каждой переменной: a) Количество сотрудников в компании b) Уровень удовлетворённости (1-5) c) Отрасль компании (IT, финансы, производство) d) Выручка компании в рублях e) Температура в офисе

Решение: a) Данные отношений (ratio) — есть абсолютный ноль (0 сотрудников), можно говорить «в два раза больше» b) Порядковые (ordinal) — есть порядок (5 > 4 > 3), но нельзя утверждать, что разница между 1 и 2 равна разнице между 4 и 5 c) Номинальные (nominal) — категории без внутреннего порядка d) Данные отношений (ratio) — абсолютный ноль, можно вычислять пропорции e) Интервальные (interval) — равные интервалы, но 0°C не означает «отсутствие температуры»

Задание 2

Вопрос: Рассчитайте среднее, медиану и моду для следующего набора данных (количество ошибок в отчётах): 2, 3, 3, 5, 7, 3, 8, 12, 4

Решение:

  1. Упорядочим данные: 2, 3, 3, 3, 4, 5, 7, 8, 12
  2. Среднее: (2+3+3+3+4+5+7+8+12) / 9 = 47/9 = 5,22
  3. Медиана: 9 значений → центральное (5-е): 4
  4. Мода: значение 3 встречается 3 раза (чаще других): 3

Интерпретация: среднее (5,22) завышено из-за выброса (12). Медиана (4) и мода (3) лучше характеризуют типичное количество ошибок. Распределение скошено вправо (positively skewed).

§ Акт · что дальше