Модуль VII·Статья III·~1 мин чтения

Статистические ловушки: что скрывают данные

Статистика, вероятность и байесовское мышление

Превратить статью в подкаст

Выберите голоса, формат и длину — AI запишет аудио

Статистические ловушки: что скрывают данные

Лжецы, великие лжецы и статистика

Бенджамин Дизраэли (или Твен): «Есть три вида лжи: ложь, наглая ложь и статистика». Это не значит, что статистика всегда лжёт — это значит, что она может вводить в заблуждение при отсутствии критического мышления.

Парадокс Симпсона: тренд, существующий в нескольких группах данных, исчезает или переворачивается при объединении групп. Пример: лечение A имеет лучший результат у женщин И лучший результат у мужчин — но в объединённой популяции хуже, чем лечение B. Как? Если в лечении B непропорционально много мужчин (которые выздоравливают хуже вне зависимости от лечения) — их «тащат вниз» общую статистику.

Выживший уклон (survivorship bias): мы анализируем только «выживших» — успешные компании, вернувшиеся самолёты, завершённые проекты — и делаем выводы, игнорируя тех, кто не выжил. Уолтер Шварц во время ВМВ: не укрепляйте места попаданий в вернувшихся самолётах — укрепляйте места, где попаданий нет, потому что самолёты с попаданиями в эти места не вернулись.

Корреляция ≠ Причинность и другие ловушки

«После — значит, вследствие» (post hoc ergo propter hoc): после X произошло Y, значит, X вызвал Y. Петух кричит перед восходом — петух вызывает рассвет? Корреляция смертей от утопления и продаж мороженого (сезонность — скрытая переменная).

«Регрессия к среднему»: после экстремального значения следующее значение, как правило, ближе к среднему — независимо от того, что произошло между ними. Студент делает ошибку, получает выговор, в следующий раз ошибается меньше — не потому что выговор помог, а из-за регрессии к среднему.

P-хакинг: исследователи тестируют много гипотез и публикуют только «значимые» (p < 0.05). При 20 тестах одна случайно «значима» с p < 0.05 даже при нулевом эффекте. Это «кризис воспроизводимости» в науке.

Вопрос для размышления: Найдите в вашей работе пример, где вы или ваша организация делали выводы о причинности из корреляции. Как это повлияло на решения?

§ Акт · что дальше