Дискретные распределения

Дискретная случайная величина принимает счётное число значений. Её полностью описывает функция вероятности (PMF) — вероятности каждого значения.

Бернулли и биномиальное распределение

Бернулли: X ~ Bernoulli(p). P(X=1)=p, P(X=0)=1-p. E[X]=p, Var[X]=p(1-p).

Биномиальное: X ~ Bin(n,p). X = число успехов в n независимых испытаниях Бернулли. P(X=k) = C(n,k)p^k(1-p)^{n-k}. E[X]=np, Var[X]=np(1-p). Производящая функция: G(z) = (1-p+pz)^n.

Пуассоновское: X ~ Poisson(λ). P(X=k) = e^{-λ}λ^k/k!, k=0,1,2,... E[X] = Var[X] = λ. Предел Bin(n,p) при n→∞, p→0, np→λ.

Геометрическое: X ~ Geom(p). X = число испытаний до первого успеха. P(X=k) = (1-p)^{k-1}p. E[X]=1/p, Var[X]=(1-p)/p². Свойство памяти без последствий: P(X>m+n|X>m) = P(X>n).

Отрицательное биномиальное и гипергеометрическое

Отрицательное биномиальное: X = число провалов до r-го успеха. P(X=k) = C(r+k-1,k)p^r(1-p)^k. E[X]=r(1-p)/p.

Гипергеометрическое: Выборка n из N (K «особых»). X = число особых в выборке. P(X=k) = C(K,k)C(N-K,n-k)/C(N,n). При N→∞, K/N→p → Bin(n,p).

Задание: (а) Биномиальное Bin(20, 0.3): вычислите P(X ≤ 5), P(X = 6), E[X], Var[X]. Аппроксимируйте Пуассоном. (б) Число «кликов» на рекламу ~ Poisson(2). P(≥3 кликов)? Каков P(первый клик на 4-й показ) — геометрическое?

Функция распределения и производящие функции

Для дискретной случайной величины важна функция распределения (CDF): F(x) = P(X ≤ x) = Σ_{k≤x} P(X=k). Она неубывающая, правонепрерывная, F(−∞) = 0, F(+∞) = 1. Для дискретных распределений CDF — ступенчатая функция с разрывами в точках, где P(X=k) > 0.

Производящая функция вероятностей G(z) = E[z^X] = Σ_{k=0}^∞ P(X=k)z^k удобна для нахождения вероятностей и моментов. P(X=k) = G^{(k)}(0)/k!, E[X] = G'(1), E[X(X−1)] = G''(1). Для суммы независимых X, Y: G_{X+Y}(z) = G_X(z)·G_Y(z).

Характеристика хвостов: Пуассоновское распределение имеет «лёгкие хвосты» — P(X ≥ k) убывает экспоненциально при больших k. Отрицательное биномиальное имеет более тяжёлые хвосты. Это важно при моделировании редких катастрофических событий.

Аппроксимации и предельные теоремы для дискретных распределений

Пуассоновская аппроксимация: Bin(n, p) при n → ∞, p → 0, np → λ: P(Bin(n,p) = k) → P(Poisson(λ) = k). Погрешность: |P(Bin(n,p)=k) − P(Poisson(λ)=k)| ≤ min(p, λ/n) · (λ или np). Работает при n ≥ 100, p ≤ 0.01.

Нормальная аппроксимация биномиального (ЦПТ): При np ≥ 5 и n(1−p) ≥ 5: Bin(n,p) ≈ N(np, np(1−p)). Поправка на непрерывность: P(X ≤ k) ≈ Φ((k+0.5−np)/√(np(1−p))). Важна при вычислении хвостовых вероятностей.

Реальные приложения дискретных распределений

Биномиальное: Контроль качества — число дефектных изделий в партии. A/B-тестирование — число конверсий при данном трафике. Генетика — число аллелей определённого типа (закон Менделя).

Пуассоновское: Телефонные звонки в колл-центре за час. Радиоактивный распад — число частиц за секунду. Мутации в ДНК на 1 млн пар оснований. Число сбоев сервера в день. Во всех случаях: редкие события в большом числе независимых испытаний.

Геометрическое: Число попыток до первой успешной продажи (cold calling). Время жизни детали до первого отказа в дискретном времени. Свойство отсутствия памяти (P(X>m+n|X>m) = P(X>n)) делает геометрическое распределение дискретным аналогом экспоненциального.

Гипергеометрическое: Лотерея (сколько «выигрышных» номеров в выбранных) — выборка без возврата из конечной генеральной совокупности. При N → ∞ переходит в биномиальное. Оценка численности популяции: метод захвата-повторного захвата (capture-recapture) использует гипергеометрическое.

Дисперсия и взаимосвязь моментов

Формула Var[X] = E[X²] − (E[X])² полезна для аналитических вычислений: не нужно центрировать X перед возведением в квадрат. Для Poisson(λ): E[X²] = E[X(X−1)] + E[X] = λ² + λ, Var[X] = λ — замечательное равенство среднего и дисперсии, используемое для проверки пуассоновского характера данных (тест отношения дисперсия/среднее, или «индекс дисперсии»).

Неравенство Чебышёва для дискретных распределений: P(|X−μ| ≥ kσ) ≤ 1/k². Для Bin(100, 0.5): μ=50, σ=5. P(|X−50| ≥ 15) ≤ 1/9 ≈ 0.111. Точное значение (через биномиальный CDF) ≈ 0.003. Чебышёв очень консервативен, но работает без знания точного распределения.

Связь между распределениями: Отрицательное биномиальное = смесь Пуассоновских с гамма-распределёнными параметрами интенсивности. При r → ∞, r(1−p) → λ: NB(r,p) → Poisson(λ). Это связывает дискретные распределения с непрерывными иерархически — фундамент иерархических байесовских моделей.

Методы оценки параметров распределений

Метод максимального правдоподобия (MLE): θ̂ = argmax L(θ|x₁,...,xₙ) = argmax Σ ln f(xᵢ|θ). Свойства: состоятельность, асимптотическая нормальность (√n(θ̂−θ) → N(0, I(θ)⁻¹)), инвариантность. Граница Рао-Крамера: Var(θ̂) ≥ 1/(n·I(θ)), где I(θ) = E[(∂ ln f/∂θ)²] — информация Фишера.

Метод моментов: Приравниваем теоретические моменты к выборочным. Менее эффективен MLE, но часто проще аналитически. Байесовская оценка: θ̂ = E[θ|data] по апостериорному распределению. При сопряжённых прiorах вычисляется аналитически.

Для Poisson(λ): MLE — λ̂ = x̄ (выборочное среднее), и это также несмещённая оценка с минимальной дисперсией (MVUE по теореме Рао-Блэкуэлла-Лемана-Шеффе через достаточную статистику Σxᵢ).

Численный пример: распределение Пуассона

Задача: В колл-центр поступает λ=4 звонка в минуту. Найти P(X=6) и P(X≥1).

Шаг 1: Формула Пуассона: P(X=k) = e^{−λ}·λᵏ/k!. При λ=4: e^{−4} ≈ 0.01832.

Шаг 2: P(X=6) = 0.01832·4⁶/6! = 0.01832·4096/720 = 0.01832·5.689 ≈ 0.1042. Наиболее вероятны X=3 и X=4.

Шаг 3: P(X≥1) = 1−P(X=0) = 1−e^{−4}·1 = 1−0.01832 ≈ 0.9817.

Шаг 4: MLE на выборке x={3,5,4,6}: λ̂ = x̄ = (3+5+4+6)/4 = 4.5. Метод моментов: E[X]=λ → λ̂=x̄=4.5. Оба дают одинаковый результат — характерное свойство распределения Пуассона.