Модуль II·Статья II·~4 мин чтения

Непрерывные распределения

Случайные величины и распределения

Превратить статью в подкаст

Выберите голоса, формат и длину — AI запишет аудио

Непрерывные распределения

Непрерывная случайная величина имеет плотность распределения f(x) ≥ 0 с ∫f dx = 1. Вероятность попасть в интервал — интеграл плотности.

Нормальное распределение

X ~ N(μ, σ²): f(x) = (1/√(2πσ²)) exp(-(x-μ)²/(2σ²)). E[X]=μ, Var[X]=σ². Симметрично, 68-95-99.7 правило (±1σ, ±2σ, ±3σ).

Стандартное: Z ~ N(0,1). Функция Φ(z) = P(Z≤z). P(a<X<b) = Φ((b-μ)/σ) - Φ((a-μ)/σ).

Сумма нормальных: Если XN(μ₁,σ₁²) и YN(μ₂,σ₂²) независимы: X+Y~N(μ₁+μ₂, σ₁²+σ₂²).

Экспоненциальное и гамма-распределения

Экспоненциальное: X ~ Exp(λ). f(x) = λe^{-λx} при x≥0. E[X]=1/λ, Var[X]=1/λ². Свойство памяти без последствий: P(X>s+t|X>t) = P(X>s). Моделирует: время между событиями Пуассонового процесса.

Гамма-распределение: X ~ Gamma(α,β). f(x) = β^α x^{α-1}e^{-βx}/Γ(α). E[X]=α/β, Var[X]=α/β². При α=1: Exp(β). Сумма n Exp(λ) ~ Gamma(n,λ).

Бета-распределение: X ~ Beta(α,β) на [0,1]. f(x) = x^{α-1}(1-x)^{β-1}/B(α,β). Моделирует вероятности и пропорции. При α=β=1: U[0,1].

Логнормальное и тяжёлые хвосты

Логнормальное: X ~ LN(μ,σ²): ln X ~ N(μ,σ²). f(x) = exp(-(ln x-μ)²/(2σ²))/(xσ√(2π)). E[X] = e^{μ+σ²/2}. Правосторонний тяжёлый хвост. Моделирует: цены активов, доходы, размеры файлов.

Задание: (а) XN(100, 225). P(X>130), P(75<X<115). (б) Процессор обрабатывает запрос за TExp(0.5 мс⁻¹). P(T>3мс)? Среднее время? (в) Логнормальное LN(5, 0.5²): вычислите E[X], Median, Mode. Почему они различаются?

Свойство отсутствия памяти и его единственность

Теорема: Единственные непрерывные распределения без памяти — экспоненциальные. Если P(X > s+t | X > t) = P(X > s) для всех s,t > 0, то X ~ Exp(λ). Это фундаментальное свойство делает экспоненциальное распределение «стандартным» в теории массового обслуживания: прошедшее время ожидания не влияет на будущее.

Аналог для дискретного случая — геометрическое распределение (P(X > m+n | X > m) = P(X > n)). Это объясняет, почему пуассоновские процессы (непрерывное время, экспоненциальные межсобытийные интервалы) и цепи Маркова (дискретное время, геометрические времена пребывания) математически близки.

Суммы и преобразования случайных величин

Свёртка: Если X и Y независимы с плотностями fₓ, f_Y, то плотность X+Y: f_{X+Y}(z) = ∫ fₓ(x)·f_Y(z−x)dx. Сумма нормальных ~ нормальное (замкнутость). Сумма гамма-распределений с одним параметром масштаба ~ гамма с суммой параметров формы.

Преобразование монотонной функции: Если Y = g(X), g строго монотонна, то f_Y(y) = f_X(g⁻¹(y))·|d/dy g⁻¹(y)|. Пример: если X ~ U[0,1], то Y = −ln(X)/λ ~ Exp(λ). Это используется для генерации случайных величин методом обратного преобразования (inverse transform sampling).

Полярный метод Бокса-Мюллера: Из U₁, U₂ ~ U[0,1] независимых: Z₁ = √(−2 ln U₁)·cos(2πU₂) ~ N(0,1). Стандартный способ генерировать нормально распределённые случайные величины на компьютере.

Применения непрерывных распределений в науке и технике

Нормальное: Ошибки измерений (теорема Гаусса), рост и вес людей, тепловые флуктуации в физике, остатки в линейных регрессиях. Центральная предельная теорема обосновывает универсальность нормального.

Экспоненциальное: Время жизни радиоактивных атомов, время обслуживания в очередях (M/M/1), время между землетрясениями (приближённо), надёжность электронных компонентов (время до отказа).

Гамма: Агрегированное время ожидания k событий Пуассона, время ремонта, расход страховых резервов. При α=n/2, β=1/2: χ²(n) — хи-квадрат распределение, фундаментальное в статистике.

Бета: Априорные распределения для вероятностей в байесовской статистике. Доля рынка, пропорция конверсии, вероятность успеха эксперимента. Сопряжённое к биномиальному: если prior Beta(α,β) и наблюдаем k успехов из n, posterior Beta(α+k, β+n−k).

Хвостовые вероятности и распределения экстремумов

Теория экстремальных значений (EVT): Максимум n i.i.d. выборок при n → ∞ сходится к одному из трёх типов: распределение Гумбеля (лёгкие хвосты: нормальное, экспоненциальное), Фреше (тяжёлые хвосты: Парето, Коши), Вейбулла (ограниченные хвосты: равномерное, бета). Обобщённое распределение Парето описывает хвосты за высоким порогом — основа страхового дела и управления рыночными рисками.

Квантили и процентили: Квантиль уровня p: Q(p) = F⁻¹(p) = min{x: F(x)≥p}. Медиана = Q(0.5). Межквартильный размах IQR = Q(0.75) − Q(0.25) — устойчивая мера разброса. Для нормального: среднее ± 1.96σ = 95% доверительный интервал для одного наблюдения.

Правило 68-95-99.7 для нормального: P(μ−σ < X < μ+σ) ≈ 0.6827; P(μ−2σ < X < μ+2σ) ≈ 0.9545; P(μ−3σ < X < μ+3σ) ≈ 0.9973. В инженерии «6-сигма» означает p ≈ 3.4 дефекта на миллион — стандарт качества производства.

Связь непрерывных распределений с реальными данными

Проверка нормальности: QQ-график (Quantile-Quantile plot) сравнивает квантили выборки с квантилями теоретического распределения — линейный тренд означает соответствие. Критерии Колмогорова-Смирнова, Андерсона-Дарлинга, Шапиро-Уилка проверяют гипотезу нормальности. Хвосты реальных данных часто тяжелее нормального (leptokurtosis, эксцесс > 0).

Надёжность и выживание: Функция надёжности R(t) = P(T>t) = 1−F(t). Интенсивность отказов h(t) = f(t)/R(t) — условная плотность отказа в момент t при выживании до t. Для экспоненциального h(t) = λ = const (нет старения). Для Вейбулла W(α,β): h(t) = (α/β)(t/β)^{α−1} — при α>1 интенсивность растёт (старение), при α<1 убывает (приработка). Это «кривая ванны»: высокая интенсивность вначале, затем постоянная, затем рост.

Численный пример: нормальное и показательное распределения

Задача: (а) Рост студентов XN(175,100). Найти P(160<X<190). (б) Прибор TExp(λ=0.01). Найти P(T>100) и медиану.

Шаг 1 (норм.): Стандартизируем: P(160<X<190) = P(−1.5<Z<1.5), так как z₁=(160−175)/10=−1.5, z₂=(190−175)/10=1.5.

Шаг 2 (норм.): P(−1.5<Z<1.5) = 2Φ(1.5)−1 = 2·0.9332−1 = 0.8664. Около 87% студентов имеют рост между 160 и 190 см.

Шаг 3 (эксп.): P(T>100) = e^{−0.01·100} = e^{−1} ≈ 0.368. Медиана: e^{−λm}=0.5 → m=ln(2)/0.01≈69.3.

Шаг 4: Weibull с β=2 (стареющий прибор): h(t)=2λ²t растёт линейно. При t=100: h(100)=2·0.0001·100=0.02 — вдвое больше начального. Интенсивность отказов за год λ=0.01: около 37% приборов пройдут 100 единиц.

§ Акт · что дальше