Условная вероятность и независимость

Условная вероятность — вероятность события при условии, что другое событие произошло. Это позволяет обновлять наши знания при поступлении информации и лежит в основе байесовского вывода.

Условная вероятность

Определение: При P(B) > 0: P(A|B) = P(A∩B)/P(B).

Теорема умножения: P(A₁∩A₂∩...∩Aₙ) = P(A₁)·P(A₂|A₁)·P(A₃|A₁A₂)·...·P(Aₙ|A₁...Aₙ₋₁).

Формула полной вероятности: Если B₁,...,Bₙ — полная группа (попарно несовместны, ⋃Bᵢ = Ω): P(A) = Σᵢ P(A|Bᵢ)P(Bᵢ).

Теорема Байеса: P(Bᵢ|A) = P(A|Bᵢ)P(Bᵢ) / Σⱼ P(A|Bⱼ)P(Bⱼ). «Апостериорная вероятность гипотезы Bᵢ при наблюдении A».

Независимость событий

Два события: A и B независимы, если P(A∩B) = P(A)P(B). Эквивалентно: P(A|B) = P(A) (информация о B не меняет вероятность A).

Попарная vs. взаимная независимость: Три события A, B, C попарно независимы, если каждая пара независима. Взаимно независимы: дополнительно P(A∩B∩C) = P(A)P(B)P(C). Попарная независимость не влечёт взаимную!

Контрпример: Ω = {1,2,3,4}, P(k)=1/4. A={1,2}, B={1,3}, C={1,4}. P(A)=P(B)=P(C)=1/2. P(AB)=P(AC)=P(BC)=1/4 = P(A)P(B) — попарно независимы. P(ABC) = 1/4 ≠ 1/8 = P(A)P(B)P(C) — не взаимно.

Задание: (а) Тест на болезнь: чувствительность 99%, специфичность 95%. Распространённость 1%. P(болезнь|положительный тест) — вычислите по Байесу. (б) Монета подбрасывается 10 раз. P(ровно 3 орла) = C(10,3)·(1/2)¹⁰. Почему? (в) Парадокс Монти Холла: три двери, машина за одной. Вы выбрали дверь 1, ведущий открыл дверь 3 (коза). Стоит ли переключиться?

Байесовский вывод на практике

Теорема Байеса — не просто формула, а философия обновления убеждений при получении новых данных. Априорная вероятность P(Bᵢ) отражает наши начальные знания о гипотезе до наблюдения. Функция правдоподобия P(A|Bᵢ) говорит, насколько вероятны наблюдения при данной гипотезе. Апостериорная вероятность P(Bᵢ|A) — обновлённая вероятность гипотезы после наблюдения A.

Пример: оценка эффективности вакцины. До исследования: P(вакцина работает) = 0.5 (априорная неопределённость). В ходе испытания наблюдаем, что в группе вакцинированных заболели 2% против 8% в контрольной. Байесовский апостериорный вывод существенно повышает P(вакцина работает). Это формализует то, как наука обновляет гипотезы на основе данных.

Парадокс ложноположительных результатов: если распространённость болезни 0.1%, тест имеет точность 99%, то при положительном результате P(болезнь) ≈ 9% — подавляющее большинство положительных результатов ложные! Это объясняет, почему скрининговые программы для редких болезней требуют подтверждающих тестов.

Цепи условных вероятностей

Теорема умножения позволяет разложить совместную вероятность. Например, P(A₁ ∩ A₂ ∩ A₃) = P(A₁) · P(A₂|A₁) · P(A₃|A₁A₂). Это важно при последовательных испытаниях: P(три красные карты подряд из 52) = (26/52)(25/51)(24/50) ≈ 0.118.

Дерево событий — наглядный способ применять формулы условных вероятностей. Каждый узел — событие, каждая ветвь — условная вероятность перехода. Вероятность конечного исхода — произведение вероятностей по пути от корня. Сумма вероятностей листьев одного узла = 1.

Независимость в потоке информации

Концепция независимости имеет глубокий информационный смысл. A и B независимы означает, что знание о B не меняет вероятность A: P(A|B) = P(A). В терминах информационной теории (Шеннон, 1948): взаимная информация I(A;B) = log P(AB)/(P(A)P(B)) = 0 при независимости.

На практике независимость — мощное предположение, упрощающее вычисления. Наивный байесовский классификатор (Naive Bayes) предполагает условную независимость всех признаков при данном классе, что даёт вычислительно простую, но удивительно эффективную модель машинного обучения.

Условная независимость: A и B условно независимы при C: P(A∩B|C) = P(A|C)·P(B|C). Это слабее безусловной независимости и фундаментально для байесовских сетей (directed acyclic graphical models) — мощного инструмента вероятностного вывода в AI-системах. В байесовской сети каждый узел условно независим от своих не-потомков при условии своих родителей — это так называемое марковское условие.

Каузальный вывод и парадокс Симпсона

Парадокс Симпсона: тренд, наблюдаемый в объединённых данных, может исчезнуть или обратиться при разбивке по подгруппам. Это происходит из-за скрытых переменных — смешивающих факторов. Пример: лечение A даёт лучший результат, чем B, в каждой из двух клиник, но хуже в объединённых данных (если тяжёлых пациентов больше посылают в клинику A). Условные вероятности P(выздоровление|лечение, клиника) корректно учитывают структуру данных, тогда как P(выздоровление|лечение) вводит в заблуждение. Парадокс Симпсона — главная причина, почему в медицинских исследованиях используются рандомизированные контролируемые испытания.

Байесовский вывод и обновление убеждений

Формула Байеса P(H|E) = P(E|H)·P(H)/P(E) пересчитывает апостериорную вероятность гипотезы H после наблюдения свидетельства E. Prior P(H) — наше убеждение до наблюдения. Likelihood P(E|H) — вероятность свидетельства при истинности H. Evidence P(E) = Σ P(E|Hᵢ)P(Hᵢ) — нормировочная константа. Posterior P(H|E) — обновлённое убеждение.

Последовательный байесовский вывод: апостериорное распределение после n наблюдений становится приором для (n+1)-го. Результат не зависит от порядка наблюдений (при независимости). Bayesian vs. frequentist: байесовский подход трактует параметры как случайные величины с распределениями; частотный — как фиксированные неизвестные.

Применение: медицинская диагностика. Чувствительность теста (sensitivity) = P(+|болен), специфичность (specificity) = P(−|здоров). При редком заболевании (P(болен) = 0.001) даже тест с чувствительностью 0.99 и специфичностью 0.99 даёт P(болен|+) ≈ 0.09 — лишь 9%! Это иллюстрирует, как игнорирование базовой частоты (base rate neglect) приводит к ошибочным выводам.

Численный пример: теорема Байеса — три урны

Задача: Три урны: урна 1 содержит 2 красных и 8 синих шаров, урна 2 — 6 красных и 4 синих, урна 3 — 5 красных и 5 синих. Наугад выбирается урна (P=1/3 каждая), затем шар. Шар оказался красным. Найти P(урна 2 | красный шар).

Шаг 1: P(красный|урна 1)=0.2; P(красный|урна 2)=0.6; P(красный|урна 3)=0.5.

Шаг 2: Полная вероятность: P(красный) = (1/3)·0.2+(1/3)·0.6+(1/3)·0.5 = 1.3/3 ≈ 0.433.

Шаг 3: Байес: P(урна 2|красный) = 0.6·(1/3) / (1.3/3) = 0.6/1.3 ≈ 0.462.

Шаг 4: P(урна 1|красный)=0.2/1.3≈0.154; P(урна 3|красный)=0.5/1.3≈0.385. Сумма: 1.001≈1 ✓. Апостериорная вероятность урны 2 выросла с 33% до 46% — наблюдение «сдвинуло» вероятности согласно правилу Байеса.