2603.05773v1 Mar 06, 2026 cs.CR

행동하지 않고 아는 것: 거대 언어 모델의 안전 메커니즘의 분리된 기하학적 구조

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Shiqian Zhao
Shiqian Zhao
Citations: 183
h-index: 6
Jinman Wu
Jinman Wu
Citations: 1
h-index: 1
Yi Xie
Yi Xie
Citations: 18
h-index: 3
Shen Lin
Shen Lin
Citations: 95
h-index: 4
Xiaofeng Chen
Xiaofeng Chen
Citations: 37
h-index: 4

안전 정렬은 종종 유해성 탐지가 자동으로 거부를 유발하는 단일 프로세스로 개념화됩니다. 그러나, 탈옥 공격의 지속성은 근본적인 메커니즘적 분리를 시사합니다. 본 연구에서는 **분리된 안전 가설 (DSH)**을 제안하며, 안전 계산이 두 개의 뚜렷한 부분 공간에서 작동한다고 가정합니다. 즉, *인지 축* ($\mathbf{v}_H$, "아는 것")과 *실행 축* ($\mathbf{v}_R$, "행동하는 것")입니다. 우리의 기하학적 분석은 이러한 신호가 초기 계층에서 적대적인 결합 상태에서 깊은 계층에서 구조적 독립 상태로 전환되는 "반사-분리"의 보편적인 진화를 보여줍니다. 이를 검증하기 위해, 우리는 *차이 추출* 및 *적응적 인과적 조종*을 도입합니다. 큐레이션된 벤치마크인 extsc{AmbiguityBench}를 사용하여, 우리는 인과적 이중 분리를 입증하여, 효과적으로 "행동하지 않고 아는 것" 상태를 만듭니다. 더욱 중요하게는, 우리는 이러한 분리를 활용하여, 거부 메커니즘을 수술적으로 제거하여 최첨단 공격 성공률을 달성하는 **거부 제거 공격 (REA)**을 제안합니다. 또한, 우리는 *명시적 의미 제어*를 사용하는 Llama3.1과 *잠재적 분산 제어*를 사용하는 Qwen2.5의 중요한 아키텍처적 차이를 발견했습니다. 코드 및 데이터셋은 https://anonymous.4open.science/r/DSH 에서 확인할 수 있습니다.

Original Abstract

Safety alignment is often conceptualized as a monolithic process wherein harmfulness detection automatically triggers refusal. However, the persistence of jailbreak attacks suggests a fundamental mechanistic decoupling. We propose the \textbf{\underline{D}}isentangled \textbf{\underline{S}}afety \textbf{\underline{H}}ypothesis \textbf{(DSH)}, positing that safety computation operates on two distinct subspaces: a \textit{Recognition Axis} ($\mathbf{v}_H$, ``Knowing'') and an \textit{Execution Axis} ($\mathbf{v}_R$, ``Acting''). Our geometric analysis reveals a universal ``Reflex-to-Dissociation'' evolution, where these signals transition from antagonistic entanglement in early layers to structural independence in deep layers. To validate this, we introduce \textit{Double-Difference Extraction} and \textit{Adaptive Causal Steering}. Using our curated \textsc{AmbiguityBench}, we demonstrate a causal double dissociation, effectively creating a state of ``Knowing without Acting.'' Crucially, we leverage this disentanglement to propose the \textbf{Refusal Erasure Attack (REA)}, which achieves State-of-the-Art attack success rates by surgically lobotomizing the refusal mechanism. Furthermore, we uncover a critical architectural divergence, contrasting the \textit{Explicit Semantic Control} of Llama3.1 with the \textit{Latent Distributed Control} of Qwen2.5. The code and dataset are available at https://anonymous.4open.science/r/DSH.

1 Citations
0 Influential
2.5 Altmetric
13.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!