2602.04896v1 Feb 03, 2026 cs.CR

외부 효과 제어: 양성 활성화 제어가 대규모 언어 모델의 탈옥 위험을 의도치 않게 증가시킨다

Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models

Ching-Yun Ko
Ching-Yun Ko
Citations: 140
h-index: 5
Pin-Yu Chen
Pin-Yu Chen
Citations: 10
h-index: 3
Chen Xiong
Chen Xiong
Citations: 59
h-index: 3
Zhiyuan He
Zhiyuan He
Citations: 35
h-index: 2
Tsung-Yi Ho
Tsung-Yi Ho
Citations: 1,053
h-index: 15

활성화 제어는 대규모 언어 모델(LLM)의 유용성을 향상시키는 실용적인 사후 훈련 모델 정렬 기술입니다. 모델을 서비스로 배포하기 전에 개발자는 모델을 재훈련할 필요 없이, 준수 또는 지침 준수와 같은 특정 행동 목표를 향해 사전 훈련된 모델을 조정할 수 있습니다. 이 과정은 모델의 내부 표현에 제어 벡터를 추가하는 것만큼 간단합니다. 그러나 이러한 기능은 의도치 않게 심각하고 간과된 안전상의 위험을 초래합니다. 우리는 "제어 외부 효과(Steering Externalities)"라는 현상을 발견했는데, 이는 엄격한 준수 또는 JSON과 같은 특정 출력 형식을 강제하는 완전히 양성 데이터 세트에서 파생된 제어 벡터가 의도치 않게 안전 장치를 약화시킵니다. 실험 결과, 이러한 개입은 증폭 효과를 발휘하여 새로운 취약점을 만들고, 초기 안전 정렬을 우회하여 표준 벤치마크에서 공격 성공률을 80% 이상으로 증가시킵니다. 궁극적으로, 우리의 결과는 배포 과정에서 중요한 간과점을 드러냅니다. 양성 활성화 제어는 체계적으로 "안전 마진"을 약화시켜 모델을 블랙박스 공격에 더 취약하게 만들고, 추론 시간의 유용성 향상은 의도치 않은 안전상의 외부 효과를 철저히 감사해야 함을 입증합니다.

Original Abstract

Activation steering is a practical post-training model alignment technique to enhance the utility of Large Language Models (LLMs). Prior to deploying a model as a service, developers can steer a pre-trained model toward specific behavioral objectives, such as compliance or instruction adherence, without the need for retraining. This process is as simple as adding a steering vector to the model's internal representations. However, this capability unintentionally introduces critical and under-explored safety risks. We identify a phenomenon termed Steering Externalities, where steering vectors derived from entirely benign datasets-such as those enforcing strict compliance or specific output formats like JSON-inadvertently erode safety guardrails. Experiments reveal that these interventions act as a force multiplier, creating new vulnerabilities to jailbreaks and increasing attack success rates to over 80% on standard benchmarks by bypassing the initial safety alignment. Ultimately, our results expose a critical blind spot in deployment: benign activation steering systematically erodes the "safety margin," rendering models more vulnerable to black-box attacks and proving that inference-time utility improvements must be rigorously audited for unintended safety externalities.

3 Citations
0 Influential
7.5 Altmetric
40.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!