희소 연결점 조향을 통한 추론 시간 정렬
Inference-time Alignment via Sparse Junction Steering
토큰 단위 조향은 추론 시간 정렬의 핵심적인 접근 방식으로, 파라미터 업데이트 없이도 큰 언어 모델의 출력 분포를 조절하여 미세한 제어를 가능하게 합니다. 기존 방법들은 효과적이지만, 모든 디코딩 단계에서 밀집적인 개입을 수행합니다. 이러한 지속적인 조작은 상당한 계산 오버헤드를 발생시킬 뿐만 아니라, 모델의 고유 분포에서 지나치게 벗어나 생성 품질을 저하시킬 위험이 있습니다. 본 연구에서는 밀집적인 개입이 불필요함을 보여주고, 생성 경로의 중요한 의사 결정 지점에서만 개입하는 희소 추론 시간 정렬(SIA)을 제안합니다. 핵심적인 통찰력은 높은 엔트로피를 갖는 지점이 생성 경로에서 중요한 의사 결정 지표이며, 정렬 불량을 초래할 가능성이 높다는 것입니다. 따라서 이러한 지점에서 정렬 관련 보상 신호를 도입해야 합니다. 다양한 모델 계열과 정렬 목표에 대한 광범위한 실험 결과, 생성되는 토큰의 20%에서 80%에만 조향을 적용하는 것이 더 우수한 정렬 효율성을 제공합니다. 특히 Qwen3과 같은 강력한 기본 모델의 경우, 생성되는 토큰의 20%에만 개입하는 것으로도, 광범위하게 추가 훈련된 명령어 모델과 동등하거나 더 나은 성능을 달성할 수 있습니다. 이러한 희소성은 더 강력한 지침을 제공하면서도 모델의 고유 분포를 더 잘 유지하며, Best-of-N과 같은 검색 기반 방법과 원활하게 통합될 수 있고, 최대 6배까지 계산 비용을 절감할 수 있습니다.
Token-level steering has emerged as a pivotal approach for inference-time alignment, enabling fine grained control over large language models by modulating their output distributions without parameter updates. While effective, existing methods rely on dense intervention at every decoding step. This persistent manipulation not only incurs substantial computational overhead but also risks compromising generation quality by excessively drifting from the model's intrinsic distribution. In this work, we show that dense intervention is unnecessary and propose Sparse Inference time Alignment (SIA), which performs sparse junction steering by intervening only at critical decision points along the generation trajectory. Our key insight is that high entropy junctions mark pivotal decision points in the generation trajectory and are particularly susceptible to misalignment, indicating the need to introduce alignment related reward signals at these points. Extensive experiments across different model families and alignment objectives show that steering only 20% to 80% of tokens achieves superior alignment-efficiency trade offs. For strong base models such as Qwen3, intervening on as few as 20% of tokens matches or even surpasses heavily post-trained instruct models. This sparsity enables stronger guidance while better preserving the model's native distribution, integrates seamlessly with search based methods such as Best-of-N, and reduces computational cost by up to 6x.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.