대규모 언어 모델의 런타임 오작동 탐지를 위한 계층별 수렴 지문
Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models
실시간으로 배포되는 대규모 언어 모델은 데이터 검증만으로는 예측하기 어려운 방식으로 오작동할 수 있습니다. 훈련 시 삽입된 악성 코드는 특정 조건에서만 작동하며, 탈옥 공격은 안전 기준을 무너뜨리고, 프롬프트 주입은 배포자의 지시를 무시합니다. 기존의 실시간 방어 기법들은 이러한 위협들을 하나씩 해결하려고 시도하며, 종종 정상 모델, 공격 트리거에 대한 지식, 또는 수정 가능한 가중치를 가정하지만, 이러한 가정은 불투명한 외부 제공 모델에서는 거의 성립하지 않습니다. 본 논문에서는 튜닝이 필요 없는 실시간 모니터링 시스템인 계층별 수렴 지문(Layerwise Convergence Fingerprinting, LCF)을 소개합니다. LCF는 각 계층 간의 은닉 상태 변화를 시스템의 건강 상태를 나타내는 지표로 활용합니다. LCF는 각 계층 간의 차이에 대한 대각선 마할라노비스 거리를 계산하고, Ledoit-Wolf 수축 방법을 사용하여 결과를 집계하며, 200개의 정상 예시를 사용한 교차 검증을 통해 임계값을 설정합니다. LCF는 Llama-3-8B, Qwen2.5-7B, Gemma-2-9B, Qwen2.5-14B의 네 가지 아키텍처에서 악성 코드, 탈옥 공격, 프롬프트 주입(56가지 악성 코드 조합, 3가지 탈옥 기법, BIPIA 이메일 + 코드-QA)을 평가한 결과, Qwen2.5-7B 및 Gemma-2에서 평균 악성 코드 공격 성공률(ASR)을 1% 미만으로 낮추고, Qwen2.5-14B에서는 1.3%로 낮췄습니다. 또한, DAN 탈옥 공격의 92~100%를 탐지하고(GCG 및 역할극의 경우 62~100%), 모든 모델 및 도메인 조합에서 텍스트 기반 악성 코드 주입을 100% 탐지했습니다. 이때, 악성 코드 오탐율(FPR)은 12~16%이고, 추론 오버헤드는 <0.1%입니다. LCF는 위협별 튜닝 없이 단일 집계 점수를 사용하여 세 가지 위협 유형을 모두 커버하므로, 클라우드 기반 및 온디바이스 대규모 언어 모델을 위한 범용적인 실시간 안전 계층으로 활용될 수 있습니다.
Large language models deployed at runtime can misbehave in ways that clean-data validation cannot anticipate: training-time backdoors lie dormant until triggered, jailbreaks subvert safety alignment, and prompt injections override the deployer's instructions. Existing runtime defenses address these threats one at a time and often assume a clean reference model, trigger knowledge, or editable weights, assumptions that rarely hold for opaque third-party artifacts. We introduce Layerwise Convergence Fingerprinting (LCF), a tuning-free runtime monitor that treats the inter-layer hidden-state trajectory as a health signal: LCF computes a diagonal Mahalanobis distance on every inter-layer difference, aggregates via Ledoit-Wolf shrinkage, and thresholds via leave-one-out calibration on 200 clean examples, with no reference model, trigger knowledge, or retraining. Evaluated on four architectures (Llama-3-8B, Qwen2.5-7B, Gemma-2-9B, Qwen2.5-14B) across backdoors, jailbreaks, and prompt injection (56 backdoor combinations, 3 jailbreak techniques, and BIPIA email + code-QA), LCF reduces mean backdoor attack success rate (ASR) below 1% on Qwen2.5-7B and Gemma-2 and to 1.3% on Qwen2.5-14B, detects 92-100% of DAN jailbreaks (62-100% for GCG and softer role-play), and flags 100% of text-payload injections across all eight (model, domain) cells, at 12-16% backdoor FPR and <0.1% inference overhead. A single aggregation score covers all three threat families without threat-specific tuning, positioning LCF as a general-purpose runtime safety layer for cloud-served and on-device LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.