SafeThinker: 위험에 대한 추론을 통해 피상적인 정렬을 넘어 안전성을 심화시키는 방법
SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment
대규모 언어 모델(LLM)은 본질적으로 위험 인식을 가지고 있지만, 현재의 방어 기술은 종종 피상적인 안전 정렬만을 제공하여 모델이 위장된 공격(예: 미리 채우기)에 취약하게 만들고, 동시에 유용성을 저하시킵니다. 이러한 간극을 해소하기 위해, 우리는 가벼운 게이트웨이 분류기를 사용하여 방어 자원을 동적으로 할당하는 적응형 프레임워크인 SafeThinker를 제안합니다. 게이트웨이의 위험 평가에 따라 입력은 세 가지 주요 메커니즘 중 하나를 통해 처리됩니다. (i) 명시적인 위협에 대해 효율성을 극대화하는 표준 거부 메커니즘, (ii) 기만적인 공격을 차단하는 안전 인지 트윈 전문가(SATE) 모듈, (iii) 불확실한 생성 과정에서 적응적으로 개입하는 분포 기반 추론(DDGT) 구성 요소입니다. 실험 결과, SafeThinker는 다양한 탈주 전략에 대한 공격 성공률을 현저히 낮추면서도 유용성을 저하시키지 않는 것으로 나타났습니다. 이는 생성 과정 전반에 걸쳐 내재적인 판단을 조정함으로써 견고성과 실용성을 효과적으로 균형을 맞출 수 있음을 보여줍니다.
Despite the intrinsic risk-awareness of Large Language Models (LLMs), current defenses often result in shallow safety alignment, rendering models vulnerable to disguised attacks (e.g., prefilling) while degrading utility. To bridge this gap, we propose SafeThinker, an adaptive framework that dynamically allocates defensive resources via a lightweight gateway classifier. Based on the gateway's risk assessment, inputs are routed through three distinct mechanisms: (i) a Standardized Refusal Mechanism for explicit threats to maximize efficiency; (ii) a Safety-Aware Twin Expert (SATE) module to intercept deceptive attacks masquerading as benign queries; and (iii) a Distribution-Guided Think (DDGT) component that adaptively intervenes during uncertain generation. Experiments show that SafeThinker significantly lowers attack success rates across diverse jailbreak strategies without compromising utility, demonstrating that coordinating intrinsic judgment throughout the generation process effectively balances robustness and practicality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.