희소 오토인코더 기반 스티어링을 통한 제어 가능한 LLM 추론
Controllable LLM Reasoning via Sparse Autoencoder-Based Steering
대규모 추론 모델(LRM)은 추론 과정에서 역추적, 교차 검증과 같은 인간과 유사한 인지적 추론 전략을 보이며, 이는 복잡한 작업에서의 성능을 향상시킨다. 현재 추론 전략은 LRM에 의해 자율적으로 선택된다. 그러나 이러한 자율적 선택은 종종 비효율적이거나 심지어 오류가 있는 추론 경로를 생성한다. 추론을 더욱 신뢰할 수 있고 유연하게 만들기 위해서는 추론 전략을 제어하는 방법을 개발하는 것이 중요하다. 기존 방법들은 LRM의 은닉 상태 내에 존재하는 개념적 얽힘으로 인해 세밀한 추론 전략을 제어하는 데 어려움을 겪고 있다. 이를 해결하기 위해, 본 연구에서는 희소 오토인코더(SAE)를 활용하여 전략이 얽혀 있는 은닉 상태를 얽힘이 해소된 특성 공간으로 분해한다. 방대한 SAE 특성 중에서 소수의 전략 특화 특성을 식별하기 위해, 효율적인 2단계 특성 식별 파이프라인인 SAE-Steering을 제안한다. SAE-Steering은 먼저 전략 관련 키워드의 로짓을 증폭시키는 특성을 선별하여 99% 이상의 특성을 필터링한 후, 남은 특성들을 제어 효과성에 따라 순위를 매긴다. 식별된 전략 특화 특성을 제어 벡터로 사용하는 SAE-Steering은 제어 효과성 면에서 기존 방법보다 15% 이상 뛰어난 성능을 보인다. 또한, 추론 전략을 제어함으로써 LRM을 잘못된 경로에서 올바른 경로로 유도할 수 있으며, 이를 통해 7%의 절대적 정확도 향상을 달성했다.
Large Reasoning Models (LRMs) exhibit human-like cognitive reasoning strategies (e.g. backtracking, cross-verification) during reasoning process, which improves their performance on complex tasks. Currently, reasoning strategies are autonomously selected by LRMs themselves. However, such autonomous selection often produces inefficient or even erroneous reasoning paths. To make reasoning more reliable and flexible, it is important to develop methods for controlling reasoning strategies. Existing methods struggle to control fine-grained reasoning strategies due to conceptual entanglement in LRMs' hidden states. To address this, we leverage Sparse Autoencoders (SAEs) to decompose strategy-entangled hidden states into a disentangled feature space. To identify the few strategy-specific features from the vast pool of SAE features, we propose SAE-Steering, an efficient two-stage feature identification pipeline. SAE-Steering first recalls features that amplify the logits of strategy-specific keywords, filtering out over 99\% of features, and then ranks the remaining features by their control effectiveness. Using the identified strategy-specific features as control vectors, SAE-Steering outperforms existing methods by over 15\% in control effectiveness. Furthermore, controlling reasoning strategies can redirect LRMs from erroneous paths to correct ones, achieving a 7\% absolute accuracy improvement.
AI Analysis
Korean Summary
Key Innovations
- SAE(Sparse Autoencoder)를 활용하여 모델의 은닉 상태에서 추론 전략과 관련된 개념을 분리(Disentanglement)하고 해석 가능한 특징으로 변환
- 수만 개의 특징 중 특정 전략 제어에 유효한 특징만을 빠르게 선별하는 'SAE-Steering' 2단계 파이프라인(키워드 로짓 기반 리콜 -> 제어 효과성 기반 랭킹) 제안
- 프롬프트 엔지니어링이나 단순 벡터 스티어링보다 뛰어난 제어 성능(약 15% 향상) 입증
- 추론 도중 발생한 오류를 사후 개입을 통해 수정(Error Correction)하여 모델의 정확도를 높이는 실질적 응용 가능성 제시
Learning & Inference Impact
학습 측면에서는 대형 언어 모델(LLM) 자체를 재학습(Fine-tuning)할 필요 없이, 모델의 활성화(activation) 데이터를 기반으로 SAE를 비지도 학습시켜 필요한 제어 벡터를 추출합니다. 추론 측면에서는 생성 과정에서 특정 레이어의 은닉 상태에 제어 벡터를 주입(injection)함으로써 실시간으로 모델의 사고 과정을 유도합니다. 이는 모델이 스스로 해결하지 못하거나 비효율적인 경로로 빠질 때 외부에서 개입하여 올바른 추론 전략(예: 문제 재정의, 가설 검증 등)을 사용하도록 강제할 수 있게 하여, 추가적인 대규모 학습 비용 없이 추론의 신뢰성과 유연성을 크게 향상시킵니다.
Technical Difficulty
Estimated implementation complexity based on methodology.