SafeSeek: 언어 모델의 안전 회로에 대한 범용적인 추적 방법
SafeSeek: Universal Attribution of Safety Circuits in Language Models
메커니즘 해석학적 연구 결과에 따르면, 대규모 언어 모델(LLM)에서 나타나는 안전 관련 행동(예: 정렬, 탈옥, 백도어)은 특정 기능적 구성 요소에 기반합니다. 그러나 기존의 안전 관련 추적 방법은 휴리스틱하고 도메인 특화된 지표 및 검색 알고리즘에 의존하기 때문에 일반화 및 신뢰성 측면에서 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 최적화를 통해 LLM 내의 기능적으로 완전한 안전 회로를 식별하는 통합적인 안전 해석 프레임워크인 exttt{ourmethod}를 제안합니다. 기존 방법들이 개별적인 헤드 또는 뉴런에 초점을 맞추는 것과 달리, exttt{ourmethod}는 안전 데이터셋에 대한 경사 하강법을 사용하여 미분 가능한 이진 마스크를 도입하여 다중 수준의 회로를 추출하며, 안전 회로 튜닝을 통합하여 이러한 희소한 회로를 효율적인 안전 미세 조정에 활용합니다. 우리는 LLM 안전의 두 가지 주요 시나리오에서 exttt{ourmethod}를 검증했습니다. **(1) 백도어 공격:** 0.42%의 희소성을 가진 백도어 회로를 식별했으며, 이 회로를 제거하면 공격 성공률(ASR)이 100%에서 0.4%로 감소하면서 일반적인 유용성은 99% 이상 유지됩니다. **(2) 안전 정렬:** 3.03%의 헤드와 0.79%의 뉴런을 포함하는 정렬 회로를 찾았으며, 이 회로를 제거하면 ASR이 0.8%에서 96.9%로 급증합니다. 반면, 이 회로를 제외한 상태에서 유용성 미세 조정을 수행하면 안전성을 96.5%까지 유지할 수 있습니다.
Mechanistic interpretability reveals that safety-critical behaviors (e.g., alignment, jailbreak, backdoor) in Large Language Models (LLMs) are grounded in specialized functional components. However, existing safety attribution methods struggle with generalization and reliability due to their reliance on heuristic, domain-specific metrics and search algorithms. To address this, we propose \ourmethod, a unified safety interpretability framework that identifies functionally complete safety circuits in LLMs via optimization. Unlike methods focusing on isolated heads or neurons, \ourmethod introduces differentiable binary masks to extract multi-granular circuits through gradient descent on safety datasets, while integrates Safety Circuit Tuning to utilize these sparse circuits for efficient safety fine-tuning. We validate \ourmethod in two key scenarios in LLM safety: \textbf{(1) backdoor attacks}, identifying a backdoor circuit with 0.42\% sparsity, whose ablation eradicates the Attack Success Rate (ASR) from 100\% $\to$ 0.4\% while retaining over 99\% general utility; \textbf{(2) safety alignment}, localizing an alignment circuit with 3.03\% heads and 0.79\% neurons, whose removal spikes ASR from 0.8\% $\to$ 96.9\%, whereas excluding this circuit during helpfulness fine-tuning maintains 96.5\% safety retention.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.