설명 기반 적대적 학습을 통한 견고하고 해석 가능한 모델
Explanation-Guided Adversarial Training for Robust and Interpretable Models
심층 신경망(DNN)은 다양한 작업에서 뛰어난 성능을 보이지만, 종종 투명하지 않은 블랙박스와 같은 방식으로 작동합니다. 설명 기반 학습(EGL) 방법은 인간이 제공한 설명 또는 모델의 중요도 지표에 대한 감독을 사용하여 DNN을 제어합니다. 이러한 접근 방식은 해석 가능성을 향상시키지만, 일반적으로 정상적인 입력만을 가정하며 상당한 어노테이션 비용을 발생시킵니다. 반면, DNN의 예측과 중요도 맵은 미세한 변화나 보이지 않는 패턴에 의해 크게 변경될 수 있습니다. 적대적 학습(AT)은 견고성을 크게 향상시킬 수 있지만, 모델의 결정이 의미 있는 특징에 의존한다는 보장은 없습니다. 이에 대응하여, 본 연구에서는 AT와 EGL의 장점을 통합하여 예측 성능, 견고성, 설명 품질을 동시에 향상시키는 통합 프레임워크인 설명 기반 적대적 학습(EGAT)을 제안합니다. EGAT는 모델에 설명 기반 제약을 부과하면서 동시에 적대적 예제를 생성합니다. EGAT는 분류 성능, 적대적 견고성, 중요도 안정성을 공동으로 최적화함으로써, 적대적 공격 및 분포 외(OOD) 시나리오를 포함한 예기치 않은 상황에 더욱 강하며, 의사 결정에 대한 인간이 이해할 수 있는 근거를 제공합니다. 또한, EGAT를 Probabilistically Approximately Correct (PAC) 학습 프레임워크 내에서 공식화하여, 표준 AT에 비해 예기치 않은 상황에서 더욱 안정적인 예측을 제공한다는 것을 이론적으로 입증합니다. OOD 벤치마크 데이터 세트에 대한 실험적 결과는 EGAT가 경쟁적인 기본 모델보다 정확도(일반 및 적대적)에서 +37% 더 우수한 성능을 보이며, 더 의미 있는 설명을 생성하고, 훈련 시간에 +16%만 추가되는 것을 보여줍니다.
Deep neural networks (DNNs) have achieved remarkable performance in many tasks, yet they often behave as opaque black boxes. Explanation-guided learning (EGL) methods steer DNNs using human-provided explanations or supervision on model attributions. These approaches improve interpretability but typically assume benign inputs and incur heavy annotation costs. In contrast, both predictions and saliency maps of DNNs could dramatically alter facing imperceptible perturbations or unseen patterns. Adversarial training (AT) can substantially improve robustness, but it does not guarantee that model decisions rely on semantically meaningful features. In response, we propose Explanation-Guided Adversarial Training (EGAT), a unified framework that integrates the strength of AT and EGL to simultaneously improve prediction performance, robustness, and explanation quality. EGAT generates adversarial examples on the fly while imposing explanation-based constraints on the model. By jointly optimizing classification performance, adversarial robustness, and attributional stability, EGAT is not only more resistant to unexpected cases, including adversarial attacks and out-of-distribution (OOD) scenarios, but also offer human-interpretable justifications for the decisions. We further formalize EGAT within the Probably Approximately Correct learning framework, demonstrating theoretically that it yields more stable predictions under unexpected situations compared to standard AT. Empirical evaluations on OOD benchmark datasets show that EGAT consistently outperforms competitive baselines in both clean accuracy and adversarial accuracy +37% while producing more semantically meaningful explanations, and requiring only a limited increase +16% in training time.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.