2601.19487v1 Jan 27, 2026 cs.LG

LLM-VA: 벡터 정렬을 통한 탈선(Jailbreak)과 과도한 거부(Over-refusal) 간의 균형 해결

LLM-VA: Resolving the Jailbreak-Overrefusal Trade-off via Vector Alignment

Wenhai Wang
Wenhai Wang
Citations: 152
h-index: 6
Haonan Zhang
Haonan Zhang
Citations: 17
h-index: 2
Dongxia Wang
Dongxia Wang
Citations: 101
h-index: 5
Yi Liu
Yi Liu
Citations: 11
h-index: 2
Kexin Chen
Kexin Chen
Citations: 11
h-index: 2

안전성을 고려하여 학습된 LLM은 두 가지 유형의 오류를 나타냅니다. 첫째는 유해한 질문에 대한 답변(탈선), 둘째는 무해한 질문에 대한 거부(과도한 거부)입니다. 기존의 벡터 조향(vector steering) 방법은 답변 벡터의 크기를 조정하지만, 이는 근본적인 상충 관계를 야기합니다. 즉, 탈선을 줄이면 과도한 거부가 증가하고, 그 반대도 마찬가지입니다. 우리는 그 원인이 LLM이 답변 여부(답변 벡터 $v_a$)와 입력 안전성 판단(안전 벡터 $v_b$)을 거의 수직인 방향으로 인코딩하여, 이를 독립적인 프로세스로 취급하기 때문임을 밝혀냈습니다. 우리는 LLM-VA를 제안합니다. LLM-VA는 닫힌 형태의 가중치 업데이트를 통해 $v_a$를 $v_b$와 정렬하여, 모델의 답변 의향이 안전성 평가에 인과적으로 의존하도록 합니다. 이는 미세 조정이나 아키텍처 변경 없이 가능합니다. 우리의 방법은 각 레이어에서 SVM을 사용하여 벡터를 식별하고, 안전성과 관련된 레이어를 선택한 다음, 최소 노름(minimum-norm) 가중치 수정 작업을 통해 벡터를 반복적으로 정렬합니다. 12개의 LLM에 대한 실험 결과, LLM-VA는 최적의 기준 모델보다 F1 점수가 11.45% 더 높고, 유용성은 95.92% 유지되며, 수동 튜닝 없이 각 모델의 안전성 편향에 자동으로 적응하는 것을 확인했습니다. 코드 및 모델은 https://hotbento.github.io/LLM-VA-Web/ 에서 확인할 수 있습니다.

Original Abstract

Safety-aligned LLMs suffer from two failure modes: jailbreak (answering harmful inputs) and over-refusal (declining benign queries). Existing vector steering methods adjust the magnitude of answer vectors, but this creates a fundamental trade-off -- reducing jailbreak increases over-refusal and vice versa. We identify the root cause: LLMs encode the decision to answer (answer vector $v_a$) and the judgment of input safety (benign vector $v_b$) as nearly orthogonal directions, treating them as independent processes. We propose LLM-VA, which aligns $v_a$ with $v_b$ through closed-form weight updates, making the model's willingness to answer causally dependent on its safety assessment -- without fine-tuning or architectural changes. Our method identifies vectors at each layer using SVMs, selects safety-relevant layers, and iteratively aligns vectors via minimum-norm weight modifications. Experiments on 12 LLMs demonstrate that LLM-VA achieves 11.45% higher F1 than the best baseline while preserving 95.92% utility, and automatically adapts to each model's safety bias without manual tuning. Code and models are available at https://hotbento.github.io/LLM-VA-Web/.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!