이중 모드 다단계 적대적 안전 훈련: 크로스 모드 공격에 대한 다중 모드 웹 에이전트의 견고성 강화
Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks
스크린샷과 접근성 트리를 모두 처리하여 웹 인터페이스와 상호 작용하는 다중 모드 웹 에이전트가 점점 더 많이 사용되고 있지만, 이러한 에이전트의 이중 스트림 아키텍처는 아직 제대로 탐구되지 않은 공격 표면을 제공합니다. 적대자가 웹페이지 DOM에 콘텐츠를 주입하면, 일관된 기만적인 내용을 통해 두 관찰 채널 모두가 동시에 손상됩니다. MiniWob++에 대한 우리의 취약점 분석 결과, 시각적 요소를 포함하는 공격이 텍스트만 주입하는 공격보다 훨씬 우수한 성능을 보이는 것으로 나타났으며, 이는 텍스트 중심의 VLM 안전 훈련에 심각한 결함이 있음을 보여줍니다. 이러한 발견에 따라, 우리는 에이전트-공격자 상호 작용을 두 플레이어의 영-합 마르코프 게임으로 형식화하고, 세 단계 파이프라인을 통해 두 플레이어를 공동으로 훈련하는 프레임워크인 Dual-Modality Multi-Stage Adversarial Safety Training (DMAST)을 제안합니다. 첫째, 강력한 교사 모델로부터 모방 학습을 수행하고, 둘째, 새로운 제로-인식 전략을 사용하여 적대적 노이즈 하에서 작업 중심적인 추론을 부여하는 오라클 기반의 지도 학습을 수행하며, 셋째, Group Relative Policy Optimization (GRPO)을 사용한 적대적 강화 학습을 통한 자체 학습을 수행합니다. DMAST는 분산 데이터셋의 작업에서 적대적 위험을 크게 완화하는 동시에 작업 완료 효율성을 두 배로 향상시킵니다. 우리의 접근 방식은 기존의 훈련 기반 및 프롬프트 기반 방어 기술보다 훨씬 우수한 성능을 보이며, 진정한 공동 진화적 발전을 보여주고 복잡하고 예측 불가능한 환경에 대한 견고한 일반화 능력을 입증합니다.
Multimodal web agents that process both screenshots and accessibility trees are increasingly deployed to interact with web interfaces, yet their dual-stream architecture opens an underexplored attack surface: an adversary who injects content into the webpage DOM simultaneously corrupts both observation channels with a consistent deceptive narrative. Our vulnerability analysis on MiniWob++ reveals that attacks including a visual component far outperform text-only injections, exposing critical gaps in text-centric VLM safety training. Motivated by this finding, we propose Dual-Modality Multi-Stage Adversarial Safety Training (DMAST), a framework that formalizes the agent-attacker interaction as a two-player zero-sum Markov game and co-trains both players through a three-stage pipeline: (1) imitation learning from a strong teacher model, (2) oracle-guided supervised fine-tuning that uses a novel zero-acknowledgment strategy to instill task-focused reasoning under adversarial noise, and (3) adversarial reinforcement learning via Group Relative Policy Optimization (GRPO) self-play. On out-of-distribution tasks, DMAST substantially mitigates adversarial risks while simultaneously doubling task completion efficiency. Our approach significantly outperforms established training-based and prompt-based defenses, demonstrating genuine co-evolutionary progress and robust generalization to complex, unseen environments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.