행동하지 않고 아는 것: 거대 언어 모델의 안전 메커니즘의 분리된 기하학적 구조
Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models
안전 정렬은 종종 유해성 탐지가 자동으로 거부를 유발하는 단일 프로세스로 개념화됩니다. 그러나, 탈옥 공격의 지속성은 근본적인 메커니즘적 분리를 시사합니다. 본 연구에서는 **분리된 안전 가설 (DSH)**을 제안하며, 안전 계산이 두 개의 뚜렷한 부분 공간에서 작동한다고 가정합니다. 즉, *인지 축* ($\mathbf{v}_H$, "아는 것")과 *실행 축* ($\mathbf{v}_R$, "행동하는 것")입니다. 우리의 기하학적 분석은 이러한 신호가 초기 계층에서 적대적인 결합 상태에서 깊은 계층에서 구조적 독립 상태로 전환되는 "반사-분리"의 보편적인 진화를 보여줍니다. 이를 검증하기 위해, 우리는 *차이 추출* 및 *적응적 인과적 조종*을 도입합니다. 큐레이션된 벤치마크인 extsc{AmbiguityBench}를 사용하여, 우리는 인과적 이중 분리를 입증하여, 효과적으로 "행동하지 않고 아는 것" 상태를 만듭니다. 더욱 중요하게는, 우리는 이러한 분리를 활용하여, 거부 메커니즘을 수술적으로 제거하여 최첨단 공격 성공률을 달성하는 **거부 제거 공격 (REA)**을 제안합니다. 또한, 우리는 *명시적 의미 제어*를 사용하는 Llama3.1과 *잠재적 분산 제어*를 사용하는 Qwen2.5의 중요한 아키텍처적 차이를 발견했습니다. 코드 및 데이터셋은 https://anonymous.4open.science/r/DSH 에서 확인할 수 있습니다.
Safety alignment is often conceptualized as a monolithic process wherein harmfulness detection automatically triggers refusal. However, the persistence of jailbreak attacks suggests a fundamental mechanistic decoupling. We propose the \textbf{\underline{D}}isentangled \textbf{\underline{S}}afety \textbf{\underline{H}}ypothesis \textbf{(DSH)}, positing that safety computation operates on two distinct subspaces: a \textit{Recognition Axis} ($\mathbf{v}_H$, ``Knowing'') and an \textit{Execution Axis} ($\mathbf{v}_R$, ``Acting''). Our geometric analysis reveals a universal ``Reflex-to-Dissociation'' evolution, where these signals transition from antagonistic entanglement in early layers to structural independence in deep layers. To validate this, we introduce \textit{Double-Difference Extraction} and \textit{Adaptive Causal Steering}. Using our curated \textsc{AmbiguityBench}, we demonstrate a causal double dissociation, effectively creating a state of ``Knowing without Acting.'' Crucially, we leverage this disentanglement to propose the \textbf{Refusal Erasure Attack (REA)}, which achieves State-of-the-Art attack success rates by surgically lobotomizing the refusal mechanism. Furthermore, we uncover a critical architectural divergence, contrasting the \textit{Explicit Semantic Control} of Llama3.1 with the \textit{Latent Distributed Control} of Qwen2.5. The code and dataset are available at https://anonymous.4open.science/r/DSH.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.