Модуль III·Статья I·~4 мин чтения
Основы количественного исследования и статистики
Введение в количественное исследование
Превратить статью в подкаст
Выберите голоса, формат и длину — AI запишет аудио
Основы количественного исследования и статистики
Что такое количественное исследование?
Количественное исследование — это систематический подход к сбору и анализу числовых данных для описания, объяснения и прогнозирования явлений. Количественные методы основаны на измерении переменных и использовании статистических инструментов для выявления закономерностей и проверки гипотез.
Ключевые характеристики:
- Использование числовых данных
- Статистический анализ
- Стремление к объективности и обобщаемости
- Проверка заранее сформулированных гипотез (дедуктивный подход)
- Большие выборки для обеспечения репрезентативности
Типы данных
Понимание типов данных критически важно, так как тип данных определяет, какие статистические методы можно применять.
Номинальные данные (Nominal)
Категории без порядка. Примеры: пол (мужской/женский), национальность, тип компании (частная/государственная), отрасль.
- Допустимые операции: подсчёт частот, мода
- Нельзя: ранжировать, вычислять среднее
Порядковые данные (Ordinal)
Категории с определённым порядком, но без равных интервалов. Примеры: уровень образования (среднее/бакалавр/магистр/PhD), шкала Лайкерта (1 = совершенно не согласен ... 5 = полностью согласен), должностной уровень.
- Допустимые операции: медиана, квартили, ранговая корреляция
- Нельзя: утверждать, что разница между 1 и 2 равна разнице между 3 и 4
Интервальные данные (Interval)
Числовые данные с равными интервалами, но без абсолютного нуля. Примеры: температура в Цельсиях, даты, IQ.
- Допустимые операции: среднее, стандартное отклонение, корреляция Пирсона
- Нельзя: говорить, что 40°C «в два раза жарче», чем 20°C
Данные отношений (Ratio)
Числовые данные с абсолютным нулём. Примеры: доход, возраст, количество сотрудников, выручка.
- Допустимые операции: все статистические операции, включая пропорции
- Можно: говорить, что доход 100 000 руб. в два раза больше 50 000 руб.
Описательная статистика
Меры центральной тенденции
Среднее арифметическое (Mean) — сумма всех значений, делённая на их количество.
- Формула: x̄ = Σx / n
- Чувствительно к выбросам
- Подходит для интервальных и данных отношений
Медиана (Median) — значение, делящее упорядоченный ряд данных пополам.
- Не чувствительна к выбросам
- Подходит для порядковых и выше данных
Мода (Mode) — наиболее часто встречающееся значение.
- Может применяться ко всем типам данных, включая номинальные
Пример расчёта
Данные о зарплатах 7 сотрудников (тыс. руб.): 30, 35, 40, 42, 45, 50, 200
- Среднее: (30+35+40+42+45+50+200) / 7 = 63,1 тыс. руб.
- Медиана: 42 тыс. руб. (центральное значение)
- Мода: нет (все значения уникальны)
Обратите внимание: среднее (63,1) существенно завышено из-за выброса (200). Медиана (42) лучше отражает типичную зарплату.
Меры разброса (вариабельности)
Размах (Range) — разница между максимальным и минимальным значениями.
- Range = Max − Min = 200 − 30 = 170
Дисперсия (Variance) — средний квадрат отклонений от среднего.
- Формула: s² = Σ(x − x̄)² / (n − 1)
Стандартное отклонение (Standard Deviation) — квадратный корень из дисперсии.
- Формула: s = √s²
- Интерпретация: чем больше стандартное отклонение, тем больше разброс данных вокруг среднего
Нормальное распределение
Нормальное (гауссово) распределение — колоколообразная кривая, симметричная относительно среднего. В нормальном распределении:
- 68% данных лежат в пределах ±1 стандартного отклонения от среднего
- 95% — в пределах ±2 стандартных отклонений
- 99,7% — в пределах ±3 стандартных отклонений
Многие статистические тесты предполагают нормальное распределение данных.
Графическое представление данных
Столбчатая диаграмма (Bar Chart) — для номинальных и порядковых данных. Показывает частоту каждой категории.
Гистограмма (Histogram) — для непрерывных числовых данных. Показывает распределение значений по интервалам.
Круговая диаграмма (Pie Chart) — для показа пропорций категорий в целом. Используйте с осторожностью: при большом числе категорий диаграмма становится нечитаемой.
Диаграмма рассеяния (Scatter Plot) — для визуализации связи между двумя числовыми переменными.
Ящик с усами (Box Plot) — показывает медиану, квартили, размах и выбросы. Очень полезен для сравнения распределений.
Практические задания
Задание 1
Вопрос: Определите тип данных для каждой переменной: a) Количество сотрудников в компании b) Уровень удовлетворённости (1-5) c) Отрасль компании (IT, финансы, производство) d) Выручка компании в рублях e) Температура в офисе
Решение: a) Данные отношений (ratio) — есть абсолютный ноль (0 сотрудников), можно говорить «в два раза больше» b) Порядковые (ordinal) — есть порядок (5 > 4 > 3), но нельзя утверждать, что разница между 1 и 2 равна разнице между 4 и 5 c) Номинальные (nominal) — категории без внутреннего порядка d) Данные отношений (ratio) — абсолютный ноль, можно вычислять пропорции e) Интервальные (interval) — равные интервалы, но 0°C не означает «отсутствие температуры»
Задание 2
Вопрос: Рассчитайте среднее, медиану и моду для следующего набора данных (количество ошибок в отчётах): 2, 3, 3, 5, 7, 3, 8, 12, 4
Решение:
- Упорядочим данные: 2, 3, 3, 3, 4, 5, 7, 8, 12
- Среднее: (2+3+3+3+4+5+7+8+12) / 9 = 47/9 = 5,22
- Медиана: 9 значений → центральное (5-е): 4
- Мода: значение 3 встречается 3 раза (чаще других): 3
Интерпретация: среднее (5,22) завышено из-за выброса (12). Медиана (4) и мода (3) лучше характеризуют типичное количество ошибок. Распределение скошено вправо (positively skewed).
§ Акт · что дальше