BehaviorGuard: 심층 강화 학습을 위한 온라인 백도어 방어 기법
BehaviorGuard: Online Backdoor Defense for Deep Reinforcement Learning
백도어 공격은 심층 강화 학습(DRL)에 심각한 위협을 가합니다. 현재의 방어 기법은 주로 보상 이상 현상을 이용하여 공격 트리거를 역추적하고, 백도어를 제거하기 위해 모델을 미세 조정하는 방식을 사용합니다. 그러나 복잡한 트리거 패턴은 이러한 방어 기법의 견고성을 약화시키고, 미세 조정은 높은 비용을 초래하여 실제 적용에 한계를 갖습니다. 따라서 본 연구에서는 공격 트리거에 의존하지 않고, 백도어에 의해 유발되는 출력 행동 패턴을 기반으로 방어하는 데 초점을 맞추어, DRL을 위한 온라인 행동 기반 백도어 탐지 및 완화 프레임워크인 BehaviorGuard를 제안합니다. 구체적으로, 공격의 종류에 관계없이, 백도어 정책은 신뢰성 있는 활성화를 보장하기 위해 행동 분포에 일관된 변화를 유발하며, 이러한 변화는 트리거가 존재하지 않더라도 높은 분위수 영역 및 분포의 꼬리 부분에서 탐지 가능한 흔적을 남깁니다. 이러한 점을 바탕으로, 행동 분포의 변화를 감지하여 런타임 시 백도어 동작을 식별하고 억제하는 새로운 지표를 설계했습니다. 현재까지 알려진 바로는, BehaviorGuard는 단일 에이전트 및 다중 에이전트 DRL 환경 모두에서 공격을 방어하는 최초의 온라인 백도어 방어 기법입니다. 다양한 벤치마크와 다양한 백도어 공격에 대한 실험 결과, BehaviorGuard는 기존 방법보다 효율성과 효과성 모두에서 뛰어난 성능을 보였습니다.
Backdoor attacks pose a serious threat to deep reinforcement learning (DRL). Current defenses typically rely on reward anomalies to reverse-engineer triggers and model finetuning to remove backdoors. However, complex trigger patterns undermine their robustness, and fine-tuning entails high costs, limiting practical utility. Therefore, we shift defense concerns to trigger-agnostic backdoor output behaviors and propose BehaviorGuard, an online behavior-based backdoor detection and mitigation framework for DRL. Specifically, we find that regardless of attacks, backdoored policies induce consistent shifts in action distributions to ensure reliable activation, leaving detectable traces in high-quantile regions and distribution tails, even in the absence of triggers. Based on this, we design a novel metric that captures behavioral drift in action distributions to identify and suppress backdoor actions at runtime. To our knowledge, this is the first online backdoor defense that counters attacks both in single- and multi-agent DRL. Evaluated across diverse benchmarks with different backdoor attacks, BehaviorGuard consistently surpasses prior methods in both efficacy and efficiency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.