2601.03595v1 Jan 07, 2026 cs.AI

희소 오토인코더 기반 스티어링을 통한 제어 가능한 LLM 추론

Controllable LLM Reasoning via Sparse Autoencoder-Based Steering

Dayiheng Liu
Dayiheng Liu
Citations: 16,165
h-index: 22
Yi Fang
Yi Fang
Citations: 4
h-index: 1
Wenjie Wang
Wenjie Wang
Citations: 3,961
h-index: 29
Mingfeng Xue
Mingfeng Xue
Sichuan university
Citations: 4,591
h-index: 9
Boyi Deng
Boyi Deng
Citations: 143
h-index: 4
Fuli Feng
Fuli Feng
Citations: 1,076
h-index: 18
Feng Xu
Feng Xu
Citations: 116
h-index: 6

대규모 추론 모델(LRM)은 추론 과정에서 역추적, 교차 검증과 같은 인간과 유사한 인지적 추론 전략을 보이며, 이는 복잡한 작업에서의 성능을 향상시킨다. 현재 추론 전략은 LRM에 의해 자율적으로 선택된다. 그러나 이러한 자율적 선택은 종종 비효율적이거나 심지어 오류가 있는 추론 경로를 생성한다. 추론을 더욱 신뢰할 수 있고 유연하게 만들기 위해서는 추론 전략을 제어하는 방법을 개발하는 것이 중요하다. 기존 방법들은 LRM의 은닉 상태 내에 존재하는 개념적 얽힘으로 인해 세밀한 추론 전략을 제어하는 데 어려움을 겪고 있다. 이를 해결하기 위해, 본 연구에서는 희소 오토인코더(SAE)를 활용하여 전략이 얽혀 있는 은닉 상태를 얽힘이 해소된 특성 공간으로 분해한다. 방대한 SAE 특성 중에서 소수의 전략 특화 특성을 식별하기 위해, 효율적인 2단계 특성 식별 파이프라인인 SAE-Steering을 제안한다. SAE-Steering은 먼저 전략 관련 키워드의 로짓을 증폭시키는 특성을 선별하여 99% 이상의 특성을 필터링한 후, 남은 특성들을 제어 효과성에 따라 순위를 매긴다. 식별된 전략 특화 특성을 제어 벡터로 사용하는 SAE-Steering은 제어 효과성 면에서 기존 방법보다 15% 이상 뛰어난 성능을 보인다. 또한, 추론 전략을 제어함으로써 LRM을 잘못된 경로에서 올바른 경로로 유도할 수 있으며, 이를 통해 7%의 절대적 정확도 향상을 달성했다.

Original Abstract

Large Reasoning Models (LRMs) exhibit human-like cognitive reasoning strategies (e.g. backtracking, cross-verification) during reasoning process, which improves their performance on complex tasks. Currently, reasoning strategies are autonomously selected by LRMs themselves. However, such autonomous selection often produces inefficient or even erroneous reasoning paths. To make reasoning more reliable and flexible, it is important to develop methods for controlling reasoning strategies. Existing methods struggle to control fine-grained reasoning strategies due to conceptual entanglement in LRMs' hidden states. To address this, we leverage Sparse Autoencoders (SAEs) to decompose strategy-entangled hidden states into a disentangled feature space. To identify the few strategy-specific features from the vast pool of SAE features, we propose SAE-Steering, an efficient two-stage feature identification pipeline. SAE-Steering first recalls features that amplify the logits of strategy-specific keywords, filtering out over 99\% of features, and then ranks the remaining features by their control effectiveness. Using the identified strategy-specific features as control vectors, SAE-Steering outperforms existing methods by over 15\% in control effectiveness. Furthermore, controlling reasoning strategies can redirect LRMs from erroneous paths to correct ones, achieving a 7\% absolute accuracy improvement.

4 Citations
0 Influential
14.5 Altmetric
76.5 Score

AI Analysis

Korean Summary

이 논문은 대형 추론 모델(LRMs)이 복잡한 문제를 해결할 때 자율적으로 선택하는 추론 전략(예: 역추적, 다각도 검증 등)을 외부에서 정밀하게 제어하기 위한 'SAE-Steering' 기법을 제안합니다. 기존 방법들은 모델 내부의 은닉 상태(hidden states)가 여러 개념으로 뒤섞여 있어(entanglement) 세밀한 제어가 어려웠습니다. 저자들은 Sparse Autoencoder(SAE)를 활용해 은닉 상태를 해석 가능한 독립된 특징(feature)으로 분해하고, 특정 추론 전략과 연관된 특징을 효율적으로 찾아내는 2단계 파이프라인을 개발했습니다. 이 식별된 특징을 조작(steering)함으로써 모델의 추론 과정을 효과적으로 제어하고, 이미 잘못된 추론 경로로 들어선 경우에도 이를 수정하여 최종 정답률을 약 7% 향상시키는 성과를 거두었습니다.

Key Innovations

  • SAE(Sparse Autoencoder)를 활용하여 모델의 은닉 상태에서 추론 전략과 관련된 개념을 분리(Disentanglement)하고 해석 가능한 특징으로 변환
  • 수만 개의 특징 중 특정 전략 제어에 유효한 특징만을 빠르게 선별하는 'SAE-Steering' 2단계 파이프라인(키워드 로짓 기반 리콜 -> 제어 효과성 기반 랭킹) 제안
  • 프롬프트 엔지니어링이나 단순 벡터 스티어링보다 뛰어난 제어 성능(약 15% 향상) 입증
  • 추론 도중 발생한 오류를 사후 개입을 통해 수정(Error Correction)하여 모델의 정확도를 높이는 실질적 응용 가능성 제시

Learning & Inference Impact

학습 측면에서는 대형 언어 모델(LLM) 자체를 재학습(Fine-tuning)할 필요 없이, 모델의 활성화(activation) 데이터를 기반으로 SAE를 비지도 학습시켜 필요한 제어 벡터를 추출합니다. 추론 측면에서는 생성 과정에서 특정 레이어의 은닉 상태에 제어 벡터를 주입(injection)함으로써 실시간으로 모델의 사고 과정을 유도합니다. 이는 모델이 스스로 해결하지 못하거나 비효율적인 경로로 빠질 때 외부에서 개입하여 올바른 추론 전략(예: 문제 재정의, 가설 검증 등)을 사용하도록 강제할 수 있게 하여, 추가적인 대규모 학습 비용 없이 추론의 신뢰성과 유연성을 크게 향상시킵니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!