2602.03792v1 Feb 03, 2026 cs.CR

WebSentinel: 웹 에이전트에 대한 프롬프트 주입 공격 탐지 및 위치 추적

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

D. Song
D. Song
Citations: 294
h-index: 3
Zhun Wang
Zhun Wang
Citations: 291
h-index: 9
Xilong Wang
Xilong Wang
Citations: 32
h-index: 3
Yinuo Liu
Yinuo Liu
Citations: 163
h-index: 7
N. Gong
N. Gong
Citations: 62
h-index: 3

프롬프트 주입 공격은 웹 페이지 콘텐츠를 조작하여 웹 에이전트가 사용자 의도와 다른 공격자가 지정한 작업을 실행하도록 만드는 공격입니다. 기존의 이러한 공격 탐지 및 위치 추적 방법은 효과가 제한적입니다. 이는 해당 방법의 기본 전제가 웹 에이전트 환경에서는 종종 유효하지 않기 때문입니다. 본 연구에서는 웹 페이지에서 프롬프트 주입 공격을 탐지하고 위치 추적하는 두 단계 접근 방식인 WebSentinel을 제안합니다. WebSentinel은 주어진 웹 페이지에 대해 1단계에서는 잠재적으로 오염된 관심 영역을 추출하고, 2단계에서는 각 영역이 웹 페이지 콘텐츠와의 일관성을 검토하여 평가합니다. 저희는 WebSentinel이 다양한 유형의 오염된 웹 페이지 및 정상 웹 페이지 데이터 세트에 대해 기존 방법보다 훨씬 우수한 성능을 보인다는 것을 보여줍니다. 저희의 코드는 다음 주소에서 확인하실 수 있습니다: https://github.com/wxl-lxw/WebSentinel.

Original Abstract

Prompt injection attacks manipulate webpage content to cause web agents to execute attacker-specified tasks instead of the user's intended ones. Existing methods for detecting and localizing such attacks achieve limited effectiveness, as their underlying assumptions often do not hold in the web-agent setting. In this work, we propose WebSentinel, a two-step approach for detecting and localizing prompt injection attacks in webpages. Given a webpage, Step I extracts \emph{segments of interest} that may be contaminated, and Step II evaluates each segment by checking its consistency with the webpage content as context. We show that WebSentinel is highly effective, substantially outperforming baseline methods across multiple datasets of both contaminated and clean webpages that we collected. Our code is available at: https://github.com/wxl-lxw/WebSentinel.

0 Citations
0 Influential
32.547189562171 Altmetric
162.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!