Интерпретируемость и надёжность DL-моделей — Большие данные и машинное обучение

Интерпретируемость и надёжность моделей

Нейронная сеть предсказывает рак по МРТ-снимку. Врач спрашивает: «Почему?» Банк отказывает в кредите. Клиент требует объяснений. Регулятор проверяет модель. Интерпретируемость — не академическая игрушка, а юридическое и этическое требование. GDPR в ЕС гарантирует «право на объяснение» автоматизированных решений.

Глобальная vs локальная интерпретируемость

Глобальная: понять, как модель работает в целом — какие признаки важны для всех предсказаний. Пример: feature importance в случайном лесу — средняя MDI по всем деревьям.

Локальная: объяснить конкретное предсказание — почему модель решила так для этого конкретного объекта. Критична для применений с высокими ставками (медицина, кредитование, юстиция).

SHAP: аксиоматически обоснованный метод

Значения Шепли (из теории игр): Вклад признака i в «коалиционной игре» f:

φᵢ(f) = Σ_{S ⊆ F{i}} |S|!(|F|−|S|−1)!/|F|! · [f(S∪{i}) − f(S)]

Расшифровка: усредняем предельный вклад признака i по всем возможным коалициям S других признаков. |S|!(|F|−|S|−1)!/|F|! — вес данной коалиции (соответствует случайному порядку добавления признаков).

Аксиомы SHAP: (1) Эффективность: Σᵢ φᵢ = f(x) − E[f(X)] — вклады суммируются в отклонение от базового значения. (2) Симметрия: если i и j вносят одинаковый вклад — φᵢ = φⱼ. (3) Фиктивный признак: φᵢ = 0 если i не влияет ни на одно предсказание.

TreeSHAP (Lundberg et al., 2020): точный SHAP для деревьев за O(TL²) (T деревьев, L листьев), вместо экспоненциального O(2ᵖ) для наивного алгоритма. Полностью детерминированный.

KernelSHAP: модельно-независимый SHAP через LIME-like выборку коалиций. Дороже TreeSHAP, применим к любой модели.

LIME (Ribeiro et al., 2016): локально аппроксимируем f(x) линейной моделью g в окрестности x: argmin_g E_{x'~π_x}[(f(x')−g(x'))²] + Ω(g). π_x — ядро близости (Гауссово). g — интерпретируемая линейная модель → её веса и есть объяснение.

Integrated Gradients (Sundararajan, 2017): для дифференцируемых моделей:

IG_i(x) = (xᵢ − x'ᵢ) · ∫₀¹ ∂f(x' + α(x−x'))/∂xᵢ dα

Усредняет градиент вдоль прямолинейного пути от базовой точки x' (например, чёрное изображение) до входа x. Удовлетворяет аксиомам чувствительности и полноты.

Adversarial Robustness

Adversarial примеры: δ = argmax_{||δ||_∞≤ε} L(f(x+δ), y). Добавляем малое (незаметное человеку) возмущение → ошибочное предсказание. Pandaизображение → гиббон с 99% уверенностью.

FGSM (Fast Gradient Sign Method, Goodfellow, 2014): δ = ε·sgn(∇_x L(f(x),y)). Один шаг в направлении возрастания потерь.

PGD (Projected Gradient Descent, Madry et al., 2018): многошаговый FGSM + проекция на ε-шар:

x_{t+1} = Π_{x+δ∈ε-ball}[xₜ + α·sgn(∇_x L(f(xₜ),y))]

PGD — «наилучшая» атака первого порядка.

Adversarial Training: обучаем на возмущённых примерах: min_θ E[max_{||δ||≤ε} L(f(x+δ), y)]. Внутренняя максимизация — PGD. Это самый надёжный метод защиты. Цена: 3–10× замедление обучения, небольшое снижение чистой точности.

Certified Robustness (Randomized Smoothing, Cohen et al., 2019): Сглаженная версия классификатора g(x) = argmax P(f(x+ε)=c), ε~N(0,σ²I). Гарантированно робастна в L2-шаре радиуса r = σ·Φ⁻¹(p_A) (p_A — вероятность класса A для x). Единственный метод с математически доказанными гарантиями для нейронных сетей.

Calibration: корректность уверенности модели

Проблема: нейронные сети часто имеют плохую калибровку — уверенность 90% не означает правоту в 90% случаев. Overconfidence особенно опасна в медицине.

Expected Calibration Error (ECE): разбиваем предсказания на M корзин по уверенности. ECE = Σₘ (|Bₘ|/n) |acc(Bₘ) − conf(Bₘ)|. Reliability diagram: acc vs conf по корзинам.

Temperature Scaling: после обучения масштабируем logits: p = softmax(z/T). T > 1 «смягчает» уверенность, T < 1 «обостряет». Оптимальное T находится по NLL на val. Простой, но мощный метод.

Дрейф данных и OOD Detection

In-distribution vs Out-of-distribution (OOD): модель должна выражать неопределённость для объектов, непохожих на обучающие. Медицинская модель, обученная на европейцах, должна быть неуверена при анализе азиатских пациентов.

Maximum Softmax Probability baseline: если max_c P(y=c|x) < threshold → OOD. Прост, работает на многих задачах.

Energy Score: E(x;f) = −log Σ_y exp(f_y(x)). OOD-объекты имеют высокую energy (низкую нормализованную вероятность любого класса).

Mahalanobis distance: вычисляем расстояние features от x до центроидов классов. Если расстояние >> обычного → OOD.

Численный пример

SHAP для кредитного скоринга (XGBoost, 50 признаков): клиент получил отказ. SHAP-значения: зарплата (−0.15), история просрочек (+0.32), размер кредита (+0.18), возраст (−0.05). Интерпретация: история просрочек — главная причина отказа, несмотря на хорошую зарплату.

Задание: (1) Обучите ResNet-18 на CIFAR-10. Вычислите SHAP для 10 случайных изображений через KernelSHAP. Визуализируйте тепловые карты важности пикселей. (2) Реализуйте Temperature Scaling: обучите, построте reliability diagram до и после. (3) Проведите PGD-атаку (ε=8/255) на 100 тестовых примерах. Какой % правильных предсказаний сохраняется? Обучите adversarial robust модель.