FineSteer: 대규모 언어 모델에서 정밀한 추론 시간 제어를 위한 통합 프레임워크
FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models
대규모 언어 모델(LLM)은 종종 안전 문제 위반 및 환각과 같은 바람직하지 않은 동작을 보입니다. 추론 시간 제어는 모델 파라미터를 업데이트하지 않고도 모델의 동작을 조정하는 비용 효율적인 방법이지만, 기존 방법은 종종 경직된, 모든 것에 적용 가능한 설계와 제한적인 적응성으로 인해 효과, 유용성 유지, 학습 효율성 측면에서 동시에 만족시키지 못합니다. 본 연구에서는 추론 시간 제어를 두 가지 상호 보완적인 단계, 즉 조건부 제어와 미세 조정된 벡터 합성으로 분해하여 내부 표현에 대한 정밀한 제어를 가능하게 하는 새로운 제어 프레임워크인 FineSteer를 제시합니다. 첫 번째 단계에서는 모델의 유용성을 유지하면서 불필요한 제어를 방지하는 서브스페이스 기반 조건부 제어(SCS) 메커니즘을 소개합니다. 두 번째 단계에서는 원하는 제어 동작의 다중 모드 특성을 포착하고 향상된 효과를 위한 쿼리별 제어 벡터를 생성하는 Mixture-of-Steering-Experts (MoSE) 메커니즘을 제안합니다. SCS와 MoSE 모두에 대한 맞춤형 설계를 통해 FineSteer는 일반적인 쿼리에 대한 강력한 성능을 유지하면서 학습 효율적인 방식으로 대상 입력에 대한 제어 벡터를 적응적으로 최적화합니다. 안전 및 진실성 벤치마크에 대한 광범위한 실험 결과, FineSteer는 전체 성능에서 최첨단 방법보다 우수한 성능을 보이며, 최소한의 유용성 손실로 더 강력한 제어 성능을 달성했습니다. 코드: https://github.com/YukinoAsuna/FineSteer
Large language models (LLMs) often exhibit undesirable behaviors, such as safety violations and hallucinations. Although inference-time steering offers a cost-effective way to adjust model behavior without updating its parameters, existing methods often fail to be simultaneously effective, utility-preserving, and training-efficient due to their rigid, one-size-fits-all designs and limited adaptability. In this work, we present FineSteer, a novel steering framework that decomposes inference-time steering into two complementary stages: conditional steering and fine-grained vector synthesis, allowing fine-grained control over when and how to steer internal representations. In the first stage, we introduce a Subspace-guided Conditional Steering (SCS) mechanism that preserves model utility by avoiding unnecessary steering. In the second stage, we propose a Mixture-of-Steering-Experts (MoSE) mechanism that captures the multimodal nature of desired steering behaviors and generates query-specific steering vectors for improved effectiveness. Through tailored designs in both SCS and MoSE, FineSteer maintains robust performance on general queries while adaptively optimizing steering vectors for targeted inputs in a training-efficient manner. Extensive experiments on safety and truthfulness benchmarks show that FineSteer outperforms state-of-the-art methods in overall performance, achieving stronger steering performance with minimal utility loss. Code is available at https://github.com/YukinoAsuna/FineSteer
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.