2603.23171v1 Mar 24, 2026 cs.CR

활성화 워터마킹을 통한 언어 모델의 안전성 모니터링 강화

Robust Safety Monitoring of Language Models via Activation Watermarking

Toluwani Aremu
Toluwani Aremu
Citations: 151
h-index: 7
D. Ognev
D. Ognev
Citations: 1
h-index: 1
Samuele Poppi
Samuele Poppi
Citations: 159
h-index: 6
Nils Lukas
Nils Lukas
Citations: 1,039
h-index: 10

대규모 언어 모델(LLM)은 민감한 정보(예: 무기 제조 지침 또는 악성 코드 작성)를 유출하는 데 악용될 수 있습니다. LLM 제공업체는 추론 과정에서 위험한 행동을 감지하고 식별하기 위해 '모니터링'을 사용합니다. 중요한 보안 과제는 (i) 탐지를 회피하면서 동시에 (ii) 위험한 행동을 유발하는 공격을 동시에 수행하는 '적응형' 공격자입니다. 적응형 공격자는 LLM 제공업체가 보안 메커니즘을 수정할 수 없기 때문에 심각한 문제입니다. LLM 제공업체는 모델이 어떻게 악용되고 있는지 알 수 없기 때문입니다. 본 연구에서는 '견고한' LLM 모니터링을 보안 게임으로 정의합니다. 여기서 공격자는 모니터링 시스템을 알고 있으며 민감한 정보를 추출하려고 시도하고, 제공업체는 낮은 오탐율로 이러한 공격적인 쿼리를 정확하게 탐지해야 합니다. 본 연구는 (i) 기존 LLM 모니터링 시스템이 적응형 공격에 취약하다는 것을 보여주고, (ii) 추론 과정에서 공격자에게 불확실성을 신중하게 도입하는 '활성화 워터마킹'을 통해 개선된 방어 기법을 설계합니다. '활성화 워터마킹'은 모니터링 알고리즘은 알고 있지만 비밀 키는 모르는 적응형 공격자에 대해 기존의 방어 기법보다 최대 52% 더 우수한 성능을 보였습니다.

Original Abstract

Large language models (LLMs) can be misused to reveal sensitive information, such as weapon-making instructions or writing malware. LLM providers rely on $\emph{monitoring}$ to detect and flag unsafe behavior during inference. An open security challenge is $\emph{adaptive}$ adversaries who craft attacks that simultaneously (i) evade detection while (ii) eliciting unsafe behavior. Adaptive attackers are a major concern as LLM providers cannot patch their security mechanisms, since they are unaware of how their models are being misused. We cast $\emph{robust}$ LLM monitoring as a security game, where adversaries who know about the monitor try to extract sensitive information, while a provider must accurately detect these adversarial queries at low false positive rates. Our work (i) shows that existing LLM monitors are vulnerable to adaptive attackers and (ii) designs improved defenses through $\emph{activation watermarking}$ by carefully introducing uncertainty for the attacker during inference. We find that $\emph{activation watermarking}$ outperforms guard baselines by up to $52\%$ under adaptive attackers who know the monitoring algorithm but not the secret key.

1 Citations
0 Influential
5 Altmetric
26.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!