Функции надёжности и анализ отказов

Современные технические системы — самолёты, ядерные реакторы, медицинское оборудование — насчитывают миллионы компонентов. Отказ любого может стоить жизней и миллиардов. Теория надёжности изучает вероятность безотказной работы и предлагает количественные методы для оценки и проектирования систем с заданным уровнем безопасности. Применяется в авиации (DO-254), ядерной энергетике (IAEA SSG-3), автомобилестроении (ISO 26262), медицине (IEC 60601). Без неё невозможны были бы гражданская авиация (вероятность катастрофы 10⁻⁹/час полёта) и атомная энергетика.

Основные функции надёжности

Для компонента с временем до отказа T (случайная величина):

Функция надёжности (reliability function): R(t) = P(T > t) — вероятность безотказной работы до момента t. Аналог функции дожития S(x) в актуарной математике. R(0) = 1, R(∞) = 0.

Функция распределения отказа: F(t) = 1 − R(t) = P(T ≤ t).

Плотность отказа: f(t) = F'(t) = −R'(t).

Интенсивность отказов (hazard rate, failure rate): h(t) = f(t)/R(t) = −d ln R(t)/dt.

Расшифровка h(t): мгновенная вероятность отказа в момент t при условии, что компонент работал до t. Аналог μ(x) в теории дожития. Восстановление: R(t) = exp(−∫_0^t h(s) ds).

Кривая «ванна» (bathtub curve)

Реальные технические компоненты часто имеют h(t) с тремя характерными периодами:

Infant mortality (детская смертность): h(t) убывает. Скрытые производственные дефекты проявляются и устраняются. Длится дни-месяцы. Решение: «приработка» (burn-in test) — производитель тестирует компоненты, отбраковывая дефектные.
Useful life (полезный период): h(t) ≈ const = λ. Случайные отказы (молния, скачок напряжения, человеческий фактор). Длится годы.
Wear-out (старение): h(t) растёт. Физический износ — усталость металла, коррозия, утечка электролита. Решение: профилактическая замена.

Параметрические модели

1. Экспоненциальное: R(t) = e^{−λ·t}, h(t) = λ = const. Соответствует «useful life». Память отсутствует: P(T > s + t | T > s) = P(T > t). MTBF (Mean Time Between Failures): E[T] = 1/λ. Пример: процессор с λ = 10⁻⁵/час → MTBF = 100 000 часов ≈ 11 лет.

2. Вейбулла: R(t) = exp(−(t/η)^β), h(t) = (β/η)·(t/η)^{β−1}.

β < 1: h убывает (infant mortality).
β = 1: экспоненциальное (useful life).
β > 1: h растёт (wear-out).
β = 2: «Rayleigh distribution» — линейный рост h.

η — масштаб (характерное время), β — форма. Гибкость делает Вейбулл стандартом надёжности.

3. Гомпертц: R(t) = exp(−(B/c)·(c^t − 1)). Аналогичен актуарной модели — для биологических систем и человека.

4. Логнормальное: ln T ~ N(μ, σ²). Используется для отказов от усталости металла (закон Bazovsky).

Структурная надёжность систем

Сложные системы состоят из компонентов. Структура их соединения определяет надёжность системы R_s.

Последовательная система (series). Все компоненты должны работать (отказ любого → отказ системы): R_s = ∏_i R_i.

Пример: цепь из 5 компонентов с R_i = 0.99: R_s = 0.99^5 = 0.951. Каждое лишнее звено снижает надёжность.

Параллельная система (parallel). Достаточно работы хотя бы одного: R_s = 1 − ∏_i (1 − R_i).

Пример: 3 параллельных компонента с R = 0.9: R_s = 1 − 0.1^3 = 0.999. Резервирование (redundancy) — главный приём повышения надёжности.

k-из-n (k-out-of-n). Работает при работоспособности ≥ k из n одинаковых компонентов: R_s = Σ_{j=k}^n C(n, j)·R^j·(1 − R)^{n−j}.

Пример: 2-of-3 с R = 0.95: R_s = 3·0.95²·0.05 + 0.95³ = 0.135 + 0.857 = 0.993.

Fault Tree Analysis (FTA) и Reliability Block Diagrams (RBD)

FTA — анализ дерева отказов. Дедуктивный метод: верхнее (нежелательное) событие → промежуточные причины → базовые события (отказы компонентов).

Логические вентили:

AND: верхнее событие требует всех входных (произведение вероятностей).
OR: достаточно одного входа.

Минимальные cut sets. Минимальные комбинации базовых событий, вызывающих верхнее. Если n cut sets, каждый требует k_j компонентов: P(top) ≈ Σ_j ∏_{i ∈ S_j} q_i (при малых q).

RBD — диаграммы надёжности. Графическое представление структуры в терминах последовательно/параллельно соединённых блоков. Эквивалентен FTA, но удобнее для расчёта R_s.

Численный пример

Система: A и B последовательно, C, D, E параллельно, затем (AB) и (CDE) параллельно. R_A = 0.98, R_B = 0.95, R_C = R_D = R_E = 0.90.

R_AB = 0.98·0.95 = 0.931. R_CDE = 1 − (1 − 0.9)³ = 1 − 0.001 = 0.999. R_system = 1 − (1 − 0.931)·(1 − 0.999) = 1 − 0.069·0.001 = 0.99993.

Анализ важности (Birnbaum importance): I_B(i) = R_s | R_i = 1 − R_s | R_i = 0. Для компонента A: R_s | R_A = 1 = 1 − (1 − 0.95)·0.001 ≈ 0.99995; R_s | R_A = 0 = 1 − 1·0.001 = 0.999. I_B(A) ≈ 0.001 — низкая важность (его дублирует параллельная ветка CDE). Для C: I_B(C) ≈ 0.069·0.01 = 0.00069. Самые важные — A и B (последовательная связка определяет работоспособность всей AB-ветки, хотя система всё ещё работает через CDE).

Реальные применения

Авиация. Boeing 787, Airbus A350: каждая критическая система (полётное управление, гидравлика, авионика) тройное резервирование. Расчётная вероятность отказа FCS < 10⁻⁹/час.
Атомная энергетика. WANO benchmark: вероятность плавления активной зоны < 10⁻⁵/реактор-год. После Фукусимы — пересмотр стандартов, дополнительные системы безопасности.
Автомобилестроение. ISO 26262 ASIL D (для airbag, ABS): требования R(10 лет) > 1 − 10⁻⁹. Проверяется FMEDA + FTA.
Медицина. Кардиостимуляторы (Medtronic, St. Jude): MTBF > 8 лет, расчётный MTTF > 12 лет. Тестирование accelerated life testing.
IT-инфраструктура. AWS, Azure SLA 99.99% (≈ 53 мин даунтайма/год). Достигается резервированием data centers (multi-AZ deployment).

Задание. Система: 5 компонентов в конфигурации из задания: A-B последовательно, далее параллельно с C-D-E (тоже параллельно между собой). R_A = 0.98, R_B = 0.95, R_C = R_D = R_E = 0.90. (а) Постройте RBD. (б) Вычислите R_system. (в) Найдите Birnbaum importance каждого компонента. (г) Какой компонент наиболее критичен для повышения R_system? (д) Если бюджет позволяет улучшить один компонент до R = 0.99, какой выберете для максимизации R_system?