BarrierSteer: 배리어 스티어링 학습을 통한 LLM 안전성
BarrierSteer: LLM Safety via Learning Barrier Steering
대형 언어 모델(LLM)이 다양한 작업에서 최첨단 성능을 보임에도 불구하고, 적대적 공격 및 안전하지 않은 콘텐츠 생성에 대한 취약성은 특히 위험 부담이 큰 환경에서 모델 배포의 주요 장애물로 남아 있다. 이러한 과제를 해결하려면 실질적으로 효과적이면서도 엄밀한 이론에 의해 뒷받침되는 안전 메커니즘이 필요하다. 본 논문에서는 학습된 비선형 안전 제약 조건을 모델의 잠재 표현 공간에 직접 임베딩하여 응답 안전성을 공식화하는 새로운 프레임워크인 BarrierSteer를 소개한다. BarrierSteer는 제어 장벽 함수(Control Barrier Functions, CBF) 기반의 조향 메커니즘을 사용하여 추론 과정에서 높은 정밀도로 안전하지 않은 응답 궤적을 효율적으로 감지하고 방지한다. 기본 LLM의 파라미터를 수정하지 않고 효율적인 제약 조건 병합을 통해 다수의 안전 제약을 강제함으로써, BarrierSteer는 모델의 본래 능력과 성능을 그대로 보존한다. 우리는 잠재 공간에 CBF를 적용하는 것이 안전성 보장을 위한 원칙적이고 계산적으로 효율적인 접근 방식을 제공함을 입증하는 이론적 결과를 제시한다. 여러 모델과 데이터셋에 걸쳐 진행된 실험을 통해 BarrierSteer가 적대적 공격 성공률을 대폭 낮추고 안전하지 않은 생성을 감소시키며 기존 방법들의 성능을 능가함을 보여준다.
Despite the state-of-the-art performance of large language models (LLMs) across diverse tasks, their susceptibility to adversarial attacks and unsafe content generation remains a major obstacle to deployment, particularly in high-stakes settings. Addressing this challenge requires safety mechanisms that are both practically effective and supported by rigorous theory. We introduce BarrierSteer, a novel framework that formalizes response safety by embedding learned non-linear safety constraints directly into the model's latent representation space. BarrierSteer employs a steering mechanism based on Control Barrier Functions (CBFs) to efficiently detect and prevent unsafe response trajectories during inference with high precision. By enforcing multiple safety constraints through efficient constraint merging, without modifying the underlying LLM parameters, BarrierSteer preserves the model's original capabilities and performance. We provide theoretical results establishing that applying CBFs in latent space offers a principled and computationally efficient approach to enforcing safety. Our experiments across multiple models and datasets show that BarrierSteer substantially reduces adversarial success rates, decreases unsafe generations, and outperforms existing methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.