В чём разница между теорией вероятностей и статистикой?

Теория вероятностей идёт в «прямом» направлении: имея модель случайности, предсказывает исходы. Статистика идёт в «обратном» направлении: по наблюдаемым исходам восстанавливает лежащую в основе модель. Они используют одну и ту же математику, но в противоположных направлениях.

Что такое центральная предельная теорема и почему она важна?

ЦПТ утверждает, что сумма многих независимых случайных величин стремится к нормальному распределению, независимо от их индивидуальных распределений. Она важна потому, что (1) объясняет, почему нормальность так распространена в природе, и (2) служит основой статистического вывода — доверительных интервалов, проверок гипотез и т.п.

В чём разница между независимыми и некоррелированными величинами?

Независимость: $P(A \cap B) = P(A) P(B)$. Отсутствие корреляции: $E[XY] = E[X] E[Y]$. Независимость влечёт некоррелированность, но не наоборот. Некоррелированные величины могут иметь нелинейную зависимость.

Теорема Байеса применяется только в медицинской диагностике?

Нет — Байес используется всюду, где есть неопределённость. Фильтрация спама (Naive Bayes), оценка доказательств в суде, классификаторы в машинном обучении, научный вывод (байесовская статистика), прогнозирование (байесовские методы в метеорологии). Медицинский пример известен потому, что наглядно демонстрирует ошибку игнорирования базовой частоты.

Почему нормальное распределение так распространено?

Из-за центральной предельной теоремы. Всё, что является суммой многих независимых влияний, будет приблизительно нормально распределено. Рост людей, IQ, ошибки измерений, финансовые доходности на коротких интервалах — всё это приблизительно нормально благодаря ЦПТ.

В чём разница между функцией распределения вероятностей и функцией плотности?

Для дискретных величин функция распределения вероятностей (PMF) задаёт $P(X = x)$. Для непрерывных величин функция плотности вероятности (PDF) задаёт плотность $f(x)$ — вероятность попасть в интервал равна интегралу плотности по этому интервалу. Функция распределения (CDF), $F(x) = P(X \leq x)$, определена для обоих случаев.

§ ИСЧИСЛЕНИЕ · 20 МИН ЧТЕНИЯ · Обновлено 2026-05-13

Основы теории вероятностей для инженеров

Математика неопределённости — для тех, кому нужно принимать решения, а не просто сдавать экзамены.

"Вероятность — это подлинный путеводитель в жизни."

— Епископ Джозеф Батлер, *Analogy of Religion* (1736)

Probability Theory Basics for Engineers — PROBABILITY THEORY BASICS FOR ENGINEERS

Теория вероятностей — это математический каркас рассуждений об неопределённости. Любой прогноз, любое решение в условиях риска, любая модель машинного обучения опирается на вероятность. Тем не менее большинство инженеров и учёных, использующих вероятности, имеют лишь смутную интуицию относительно того, что они означают: они помнят формулы, не понимая структуры.

Эта статья рассматривает, что такое вероятность, формальную структуру (вероятностные пространства), случайные величины, важнейшие распределения, условную вероятность и теорему Байеса, математическое ожидание и дисперсию, центральную предельную теорему и применения в инженерии и машинном обучении.

Что такое вероятность

Вероятность — это мера степени возможности наступления события. Мы приписываем каждому событию число между 0 и 1:

0 означает, что событие невозможно.
1 означает, что событие наверняка произойдёт.
0.5 означает, что событие столь же вероятно, как и невероятно.

Это интуитивное представление. Формальное определение более аккуратно.

Вероятностное пространство — это тройка $(Ω, F, P)$ , где:

$Ω$ — пространство элементарных исходов, множество всех возможных исходов.
$F$ — семейство событий, подмножеств $Ω$ , которым мы можем приписывать вероятности.
$P$ — вероятностная мера, функция из $F$ в $[0, 1]$ , удовлетворяющая:
- $P (Ω) = 1$ .
- $P (A) \geq 0$ для любого события $A$ .
- Для несовместимых событий $A_{1}, A_{2}, \dots$ : $P (A_{1} \cup A_{2} \cup \dots) = P (A_{1}) + P (A_{2}) + \dots$ .

Это аксиоматизация Колмогорова (1933), давшая теории вероятностей её современное строгое основание.

На практике вы редко думаете о вероятностных пространствах явно. Вы работаете со случайными величинами, распределениями и вероятностями событий.

Дискретные и непрерывные вероятности

Дискретная вероятность описывает ситуации с счётным набором исходов. Подбрасывание монеты, броски кубика, число клиентов, число просмотров страниц.

Непрерывная вероятность описывает ситуации с несчётным множеством исходов. Измерения, времена, веса, длины.

Различие важно, потому что дискретные распределения приписывают отдельным исходам положительную вероятность (например, $P (монета = орёл) = 0.5$ ), тогда как непрерывные распределения приписывают нулевую вероятность любому отдельному исходу. Для непрерывных величин говорят о вероятностях диапазонов: $P (X < 5)$ или $P (2 \leq X \leq 5)$ .

Непрерывные вероятности описываются функцией плотности вероятности (PDF). Плотность $f (x)$ обладает свойством

$P (a \leq X \leq b) = \int_{a}^{b} f (x) d x$

Сама функция плотности не является вероятностью — это плотность. Интеграл плотности по интервалу даёт вероятность попасть в этот интервал.

Случайные величины

Случайная величина — это функция из пространства элементарных исходов в множество действительных чисел. По-русски: величина, значение которой зависит от случайного исхода.

Примеры:

$X$ = число орлов в 10 подбрасываниях монеты (дискретная, принимает значения от 0 до 10).
$Y$ = рост случайно выбранного взрослого человека (непрерывная, принимает значения примерно в диапазоне 50–250 см).
$Z$ = время до отказа сервера (непрерывная, принимает положительные действительные значения).

Случайные величины обычно обозначаются заглавными буквами ( $X$ , $Y$ , $Z$ ). Конкретные реализации (наблюдаемые значения) обозначаются строчными буквами ( $x$ , $y$ , $z$ ).

Типичные распределения

Небольшое число распределений постоянно встречается в приложениях. Имеет смысл запомнить их формы и свойства.

Дискретные распределения:

Bernoulli $(p)$ — один эксперимент с двумя исходами. $P (X = 1) = p$ , $P (X = 0) = 1 - p$ . Пример: одно подбрасывание монеты.

Binomial $(n, p)$ — число успехов в $n$ независимых испытаниях Bernoulli $(p)$ . $P (X = k) = (k n) p^{k} (1 - p)^{n - k}$ . Пример: число орлов в 10 подбрасываниях монеты.

Poisson $(λ)$ — число событий в фиксированном интервале, когда события происходят независимо с интенсивностью $λ$ . $P (X = k) = \frac{λ ^{k} e ^{- λ}}{k !}$ . Пример: число клиентов, пришедших за час.

Geometric $(p)$ — число испытаний до первого успеха. $P (X = k) = (1 - p)^{k - 1} p$ . Пример: число подбрасываний монеты до первого орла.

Непрерывные распределения:

Uniform $(a, b)$ — одинаково вероятно оказаться где угодно в $[a, b]$ . Плотность: $f (x) = \frac{1}{b - a}$ для $x \in [a, b]$ , ноль вне этого интервала.

Normal (Gaussian) $N (μ, σ^{2})$ — колоколообразная кривая. Плотность: $f (x) = \frac{1}{σ 2 π} e^{- (x - μ)^{2} / (2 σ^{2})}$ . Среднее $μ$ , дисперсия $σ^{2}$ . Это наиболее важное распределение в теории вероятностей и статистике.

Exponential $(λ)$ — время ожидания между событиями пуассоновского процесса. Плотность: $f (x) = λ e^{- λ x}$ для $x \geq 0$ . Обладает свойством отсутствия памяти.

Beta $(α, β)$ — распределение на $[0, 1]$ , полезное для моделирования вероятностей. Плотность: $f (x) = \frac{x ^{α - 1} ( 1 - x ) ^{β - 1}}{B ( α , β )}$ .

Каждое распределение имеет параметры, определяющие его форму. Для каждого можно вычислить математическое ожидание, дисперсию и другие моменты по параметрам.

Условная вероятность и теорема Байеса

Условная вероятность события $A$ при условии $B$ задаётся как

$P (A ∣ B) = \frac{P ( A \cap B )}{P ( B )}$

при условии, что $P (B) > 0$ . Иными словами: вероятность $A$ , если мы знаем, что произошло $B$ .

Теорема Байеса переписывает это так:

$P (A ∣ B) = \frac{P ( B ∣ A ) P ( A )}{P ( B )}$

Почему это важно: теорема позволяет инвертировать условные вероятности. Если вам известно $P (B ∣ A)$ , а нужно $P (A ∣ B)$ , теорема Байеса даёт нужное выражение.

Пример 1 — классический пример с медицинским тестом: Болезнью страдает 1 из 1000 человек. Тест на болезнь имеет точность 99% (и по чувствительности, и по специфичности). Если человек получил положительный результат, какова вероятность, что у него действительно есть болезнь?

Интуиция подсказывает: около 99%, раз тест точен на 99%. Теорема Байеса показывает иное.

Пусть $D$ = «болен», $T$ = «тест положителен».

$P (D) = 0.001$ . $P (T ∣ D) = 0.99$ (доля истинно положительных результатов). $P (T ∣\neg D) = 0.01$ (доля ложноположительных результатов).

По закону полной вероятности: $P (T) = P (T ∣ D) P (D) + P (T ∣\neg D) P (\neg D) = 0.99 \cdot 0.001 + 0.01 \cdot 0.999 = 0.00099 + 0.00999 = 0.01098$ .

По Байесу: $P (D ∣ T) = \frac{P ( T ∣ D ) P ( D )}{P ( T )} = \frac{0.99 \cdot 0.001}{0.01098} \approx 0.090$ .

Таким образом, если вы получили положительный результат, вероятность того, что вы действительно больны, составляет около 9%, а не 99%. Высокая (99%) точность теста перекрывается очень низкой априорной вероятностью болезни.

Это ошибка игнорирования базовой частоты (base rate fallacy), одна из самых значимых когнитивных ошибок в медицине, судебной практике и сфере безопасности.

Математическое ожидание и дисперсия

Математическое ожидание (или среднее) случайной величины — это взвешенное среднее:

Дискретный случай: $E [X] = \sum_{x} x \cdot P (X = x)$ . Непрерывный случай: $E [X] = \int_{- \infty}^{\infty} x \cdot f (x) d x$ .

Пример 2: Математическое ожидание броска игрального кубика.

$E [X] = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + \dots + 6 \cdot \frac{1}{6} = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = 3.5$ .

(Замечание: 3.5 не является возможным исходом. Математическое ожидание — это среднее, а не типичное значение.)

Дисперсия измеряет разброс распределения:

$Var (X) = E [(X - E [X])^{2}] = E [X^{2}] - E [X]^{2}$

Среднеквадратическое отклонение — это квадратный корень из дисперсии: $σ_{X} = Var (X)$ .

Линейность математического ожидания: $E [a X + bY] = a E [X] + b E [Y]$ для любых случайных величин $X$ , $Y$ и констант $a$ , $b$ . Это верно независимо от того, независимы ли $X$ и $Y$ .

Дисперсия нелинейна: $Var (X + Y) = Var (X) + Var (Y) + 2 Cov (X, Y)$ . Для независимых величин ковариация равна нулю, и дисперсии складываются.

Центральная предельная теорема

Это самая важная теорема в теории вероятностей. Неформулированно:

Сумма (или среднее) большого числа независимых случайных величин, независимо от их индивидуальных распределений, приближается нормальным распределением.

Формально: если $X_{1}, X_{2}, \dots, X_{n}$ — независимые и одинаково распределённые (i.i.d.) случайные величины с математическим ожиданием $μ$ и дисперсией $σ^{2}$ , то при большом $n$ :

$\frac{X ˉ _{n} - μ}{σ / n} \to N (0, 1)$

по распределению, где $\overset{ˉ}{X}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}$ — выборочное среднее.

Почему это важно. Большинство реальных величин являются суммами или средними многих малых случайных влияний — ошибки измерения, финансовые доходности, биологические признаки, отклонения в производстве. Центральная предельная теорема объясняет, почему нормальное распределение встречается повсюду: не потому, что вселенная «любит» его, а потому, что суммы независимых случайных величин к нему стремятся.

Центральная предельная теорема также лежит в основе статистического вывода. Доверительные интервалы, проверка гипотез и большая часть практической статистики опираются на асимптотическую нормальность, которую она гарантирует.

Применения

Надёжность инженерных систем. Экспоненциальное распределение моделирует время до отказа элементов с постоянной интенсивностью отказов. Для составных систем (несколько элементов последовательно или параллельно) распределения времени до отказа можно вычислить из распределений отказов компонентов.

Теория связи. Информационная теория Шеннона использует вероятности для количественного описания информации. Пропускная способность канала, частоты ошибок и сжатие данных — всё это задачи теории вероятностей.

Машинное обучение. Выходы классификаторов представляют собой распределения вероятностей. Байесовские методы моделируют неопределённость в параметрах и предсказаниях. Генеративные модели обучаются вероятностным распределениям данных.

Финансы. Доходности активов моделируются как случайные величины. Дисперсия портфеля вычисляется по ковариационной матрице доходностей. Формула оценки опционов Блэка—Шоулза предполагает, что доходности распределены нормально (а цены логнормально).

Контроль качества. Статистический контроль процессов использует распределения вероятностей измерений в производстве для обнаружения дрейфа процесса до того, как проблемы с качеством станут серьёзными.

Часто задаваемые

В чём разница между теорией вероятностей и статистикой?: Теория вероятностей идёт в «прямом» направлении: имея модель случайности, предсказывает исходы. Статистика идёт в «обратном» направлении: по наблюдаемым исходам восстанавливает лежащую в основе модель. Они используют одну и ту же математику, но в противоположных направлениях.
Что такое центральная предельная теорема и почему она важна?: ЦПТ утверждает, что сумма многих независимых случайных величин стремится к нормальному распределению, независимо от их индивидуальных распределений. Она важна потому, что (1) объясняет, почему нормальность так распространена в природе, и (2) служит основой статистического вывода — доверительных интервалов, проверок гипотез и т.п.
В чём разница между независимыми и некоррелированными величинами?: Независимость: $P(A \cap B) = P(A) P(B)$. Отсутствие корреляции: $E[XY] = E[X] E[Y]$. Независимость влечёт некоррелированность, но не наоборот. Некоррелированные величины могут иметь нелинейную зависимость.
Теорема Байеса применяется только в медицинской диагностике?: Нет — Байес используется всюду, где есть неопределённость. Фильтрация спама (Naive Bayes), оценка доказательств в суде, классификаторы в машинном обучении, научный вывод (байесовская статистика), прогнозирование (байесовские методы в метеорологии). Медицинский пример известен потому, что наглядно демонстрирует ошибку игнорирования базовой частоты.
Почему нормальное распределение так распространено?: Из-за центральной предельной теоремы. Всё, что является суммой многих независимых влияний, будет приблизительно нормально распределено. Рост людей, IQ, ошибки измерений, финансовые доходности на коротких интервалах — всё это приблизительно нормально благодаря ЦПТ.
В чём разница между функцией распределения вероятностей и функцией плотности?: Для дискретных величин функция распределения вероятностей (PMF) задаёт $P(X = x)$. Для непрерывных величин функция плотности вероятности (PDF) задаёт плотность $f(x)$ — вероятность попасть в интервал равна интегралу плотности по этому интервалу. Функция распределения (CDF), $F(x) = P(X \leq x)$, определена для обоих случаев.

— ДЕЙСТВИЕ —

Цитированное и далее

·Blitzstein, J. and Hwang, J. (2019). Introduction to Probability, 2nd edition. Chapman & Hall.
·Ross, S. (2019). A First Course in Probability, 10th edition. Pearson.
·Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. — Об ошибке игнорирования базовой частоты.
·Stat 110 Lectures: https://projects.iq.harvard.edu/stat110

Из этого кластера

§ PILLAR · 36 МИН

Calculus & Linear Algebra: The Complete Guide

Об авторе

Tim Sheludyakov пишет библиотеку Stoa.

Автор Tim Sheludyakov · Отредактировано 2026-05-13

Письмо из портика

Раз в неделю — лонгрид, цитата, практика. Без промо. Отписка в один клик.

Нажимая «Подписаться», вы соглашаетесь получать письма Stoa.