ATEX-CF: 공격 기반 반사실적 설명 그래프 신경망
ATEX-CF: Attack-Informed Counterfactual Explanations for Graph Neural Networks
반사실적 설명은 그래프 신경망(GNN)을 해석하는 직관적인 방법으로, 모델의 예측을 변경시키는 최소한의 변화를 식별하여 "어떤 점이 달라져야 다른 결과가 나오나요?"라는 질문에 답합니다. 본 연구에서는 공격 기법과 반사실적 설명 생성 방식을 통합하는 새로운 프레임워크인 ATEX-CF를 제안합니다. 이는 노드의 예측을 변경한다는 공통 목표를 가지고 있지만, 노이즈 발생 전략이 다르다는 점(공격은 주로 엣지 추가를, 반사실적 방법은 주로 엣지 삭제를 사용)에 기반합니다. 기존의 방법들이 설명을 공격과 별개로 취급하는 것과 달리, 본 방법은 이론적 근거를 바탕으로 엣지 추가와 삭제를 효율적으로 통합하며, 공격으로부터 얻은 통찰력을 활용하여 중요한 반사실적 설명을 탐색합니다. 또한, 제한된 노이즈 예산 하에서 충실성, 희소성, 그리고 현실성을 동시에 최적화하여, 본 방법은 정보력이 높고 현실적인 인스턴스 수준의 설명을 생성합니다. 합성 데이터와 실제 노드 분류 벤치마크에서의 실험 결과는 ATEX-CF가 충실하고 간결하며 현실적인 설명을 생성하며, GNN에 대한 반사실적 추론에 공격적 통찰력을 통합하는 것이 효과적임을 보여줍니다.
Counterfactual explanations offer an intuitive way to interpret graph neural networks (GNNs) by identifying minimal changes that alter a model's prediction, thereby answering "what must differ for a different outcome?". In this work, we propose a novel framework, ATEX-CF that unifies adversarial attack techniques with counterfactual explanation generation-a connection made feasible by their shared goal of flipping a node's prediction, yet differing in perturbation strategy: adversarial attacks often rely on edge additions, while counterfactual methods typically use deletions. Unlike traditional approaches that treat explanation and attack separately, our method efficiently integrates both edge additions and deletions, grounded in theory, leveraging adversarial insights to explore impactful counterfactuals. In addition, by jointly optimizing fidelity, sparsity, and plausibility under a constrained perturbation budget, our method produces instance-level explanations that are both informative and realistic. Experiments on synthetic and real-world node classification benchmarks demonstrate that ATEX-CF generates faithful, concise, and plausible explanations, highlighting the effectiveness of integrating adversarial insights into counterfactual reasoning for GNNs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.