매트릭스 해킹: 제어된 모델 우회 전략을 위한 널스페이스 스티어링
Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion
최근의 정렬 및 명령어 튜닝 발전에도 불구하고, 대규모 언어 모델은 여전히 '자일브레이크' 공격에 취약하며, 이는 안전 장치를 우회하고 유해한 응답을 유도하도록 설계된 입력입니다. 본 연구에서는 '헤드-마스크 널스페이스 스티어링(HMNS)'이라는 회로 수준의 개입 방법을 제안합니다. HMNS는 (i) 모델의 기본 동작에 가장 큰 영향을 미치는 어텐션 헤드를 식별하고, (ii) 표적 컬럼 마스킹을 통해 해당 헤드의 출력 경로를 억제하며, (iii) 억제된 부분 공간의 직교 보완 공간에 제한된 섭동을 주입합니다. HMNS는 폐루프 감지-개입 사이클로 작동하며, 원인 헤드를 재식별하고 여러 디코딩 시도에 걸쳐 개입을 재적용합니다. 다양한 자일브레이크 벤치마크, 강력한 안전 방어 시스템, 그리고 널리 사용되는 언어 모델에 대한 실험 결과, HMNS는 기존 방법보다 적은 쿼리 수로 최고 수준의 공격 성공률을 달성했습니다. 추가 실험을 통해 널스페이스 제약 섭동, 잔차 정규화 스케일링, 그리고 반복적인 재식별이 HMNS의 효과성에 핵심적인 역할을 한다는 것을 확인했습니다. 현재까지 알려진 바로는, 본 연구는 기하학적 정보와 해석 가능성을 활용하여 모델을 제어하고, 적대적인 안전 우회를 시도하는 첫 번째 방법입니다. 이는 제어된 모델 스티어링 및 적대적 안전 우회에 대한 새로운 패러다임을 제시합니다.
Large language models remain vulnerable to jailbreak attacks -- inputs designed to bypass safety mechanisms and elicit harmful responses -- despite advances in alignment and instruction tuning. We propose Head-Masked Nullspace Steering (HMNS), a circuit-level intervention that (i) identifies attention heads most causally responsible for a model's default behavior, (ii) suppresses their write paths via targeted column masking, and (iii) injects a perturbation constrained to the orthogonal complement of the muted subspace. HMNS operates in a closed-loop detection-intervention cycle, re-identifying causal heads and reapplying interventions across multiple decoding attempts. Across multiple jailbreak benchmarks, strong safety defenses, and widely used language models, HMNS attains state-of-the-art attack success rates with fewer queries than prior methods. Ablations confirm that nullspace-constrained injection, residual norm scaling, and iterative re-identification are key to its effectiveness. To our knowledge, this is the first jailbreak method to leverage geometry-aware, interpretability-informed interventions, highlighting a new paradigm for controlled model steering and adversarial safety circumvention.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.