2604.25562v1 Apr 28, 2026 cs.CR

SnapGuard: 스크린샷 기반 웹 에이전트를 위한 경량 프롬프트 주입 탐지

SnapGuard: Lightweight Prompt Injection Detection for Screenshot-Based Web Agents

Annika Singh
Annika Singh
Citations: 0
h-index: 0
Quanjun Yin
Quanjun Yin
Citations: 148
h-index: 7
Mengyao Du
Mengyao Du
Citations: 6
h-index: 1
Haokai Ma
Haokai Ma
Citations: 16
h-index: 2
Kai Xu
Kai Xu
Citations: 22
h-index: 3
Ee-Chien Chang
Ee-Chien Chang
Citations: 496
h-index: 11

웹 에이전트는 복잡한 웹 환경과의 상호 작용을 자동화하는 효과적인 패러다임으로 부상했지만, 웹페이지 콘텐츠에 악의적인 명령어를 삽입하여 의도하지 않은 동작을 유발하는 프롬프트 주입 공격에 취약합니다. 특히, 렌더링된 시각적 웹페이지를 기반으로 작동하는 스크린샷 기반 웹 에이전트는 구조화된 텍스트 표현이 아닌 시각 정보를 사용하므로, 기존의 텍스트 중심적인 방어 기법이 효과적이지 않습니다. 다중 모드 탐지 방법이 연구되었지만, 종종 대규모의 시각-언어 모델(VLM)에 의존하여 상당한 계산 오버헤드를 발생시킵니다. 이러한 병목 현상은 최신 웹페이지의 복잡성에서 비롯됩니다. VLM은 전체 페이지의 전역 의미를 이해해야 하므로, 상당한 추론 시간과 GPU 메모리 사용량을 초래합니다. 따라서 다음과 같은 중요한 질문이 제기됩니다. 스크린샷을 통해 프롬프트 주입 공격을 경량 방식으로 탐지할 수 있을까요? 본 논문에서는 주입된 웹페이지가 시각적 및 텍스트적 관점에서 정상적인 웹페이지와 뚜렷한 특징을 보인다는 것을 관찰했습니다. 이러한 통찰력을 바탕으로, 웹페이지 스크린샷에 대한 다중 모드 표현 분석을 통해 프롬프트 주입 탐지를 재구성하는 경량 yet 정확한 방법인 SnapGuard를 제안합니다. SnapGuard는 두 가지 상호 보완적인 신호를 활용합니다. 첫째, 악성 콘텐츠에 의해 유발되는 비정상적인 부드러운 그라데이션 분포를 식별하는 시각적 안정성 지표입니다. 둘째, 대비-극성 반전을 통해 복구된 동작 지향적인 텍스트 신호입니다. 8가지 공격 및 2가지 정상 환경에서의 광범위한 평가 결과, SnapGuard는 F1 점수가 0.75로, GPT-4o-prompt보다 뛰어난 성능을 보였으며, 8배 더 빠른 속도(1.81초 vs. 14.50초)를 제공하고 추가적인 메모리 오버헤드를 발생시키지 않았습니다.

Original Abstract

Web agents have emerged as an effective paradigm for automating interactions with complex web environments, yet remain vulnerable to prompt injection attacks that embed malicious instructions into webpage content to induce unintended actions. This threat is further amplified for screenshot-based web agents, which operate on rendered visual webpages rather than structured textual representations, making predominant text-centric defenses ineffective. Although multimodal detection methods have been explored, they often rely on large vision-language models (VLMs), incurring significant computational overhead. The bottleneck lies in the complexity of modern webpages: VLMs must comprehend the global semantics of an entire page, resulting in substantial inference time and GPU memory usage. This raises a critical question: can we detect prompt injection attacks from screenshots in a lightweight manner? In this paper, we observe that injected webpages exhibit distinct characteristics compared to benign ones from both visual and textual perspectives. Building on this insight, we propose SnapGuard, a lightweight yet accurate method that reformulates prompt injection detection as multimodal representation analysis over webpage screenshots. SnapGuard leverages two complementary signals: a visual stability indicator that identifies abnormally smooth gradient distributions induced by malicious content, and action-oriented textual signals recovered via contrast-polarity reversal. Extensive evaluations across eight attacks and two benign settings demonstrate that SnapGuard achieves an F1 score of 0.75, outperforming GPT-4o-prompt while being 8x faster (1.81s vs. 14.50s) and introducing no additional memory overhead.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!