WARD: 프롬프트 주입 공격에 대한 웹 에이전트의 적대적 강건성 방어
WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections
웹 에이전트는 웹사이트와 상호 작용하여 온라인 작업을 자율적으로 수행할 수 있지만, 개방형 웹 환경에 노출되어 HTML 콘텐츠나 시각적 인터페이스에 내장된 프롬프트 주입 공격에 취약합니다. 기존의 방어 모델은 여전히 새로운 도메인 및 공격 패턴에 대한 제한적인 일반화 능력, 양성 콘텐츠에 대한 높은 오탐율, 각 단계에서 추가되는 지연으로 인한 낮은 배포 효율성, 그리고 시간이 지남에 따라 진화하거나 직접 방어 모델을 대상으로 하는 적대적 공격에 취약한 문제가 있습니다. 이러한 제한 사항을 해결하기 위해, 우리는 안전하고 효율적인 웹 에이전트를 위한 실용적인 방어 모델인 WARD(Web Agent Robust Defense against Prompt Injection)를 제안합니다. WARD는 719개의 고트래픽 URL 및 플랫폼에서 수집된 약 177,000개의 샘플로 구성된 대규모 데이터셋인 WARD-Base와, 방어 모델을 대상으로 하는 프롬프트 주입 공격을 위해 특별히 설계된 데이터셋인 WARD-PIG을 기반으로 구축되었습니다. 또한, 우리는 메모리 기반 공격자와 방어 모델의 공동 진화 과정을 통해 WARD를 반복적으로 강화하는 적응적 적대적 공격 훈련 프레임워크인 A3T를 소개합니다. 광범위한 실험 결과, WARD는 분산 환경의 벤치마크에서 거의 완벽한 재현율을 달성하고, 에이전트의 유용성을 유지하기 위해 낮은 오탐율을 유지하며, 상당한 데이터 분포 변화 하에서 방어 모델을 대상으로 하는 적응적 공격에 대해 강건함을 유지하고, 추가적인 지연을 발생시키지 않고 에이전트와 병렬로 효율적으로 실행됩니다.
Web agents can autonomously complete online tasks by interacting with websites, but their exposure to open web environments makes them vulnerable to prompt injection attacks embedded in HTML content or visual interfaces. Existing guard models still suffer from limited generalization to unseen domains and attack patterns, high false positive rates on benign content, reduced deployment efficiency due to added latency at each step, and vulnerability to adversarial attacks that evolve over time or directly target the guard itself. To address these limitations, we propose WARD (Web Agent Robust Defense against Prompt Injection), a practical guard model for secure and efficient web agents. WARD is built on WARD-Base, a large-scale dataset with around 177K samples collected from 719 high-traffic URLs and platforms, and WARD-PIG, a dedicated dataset designed for prompt injection attacks targeting the guard model. We further introduce A3T, an adaptive adversarial attack training framework that iteratively strengthens WARD through a memory-based attacker and guard co-evolution process. Extensive experiments show that WARD achieves nearly perfect recall on out-of-distribution benchmarks, maintains low false positive rates to preserve agent utility, remains robust against guard-targeted and adaptive attacks under substantial distribution shifts, and runs efficiently in parallel with the agent without introducing additional latency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.