내면을 들여다보며 외부를 탐색: 계층적 강화 학습을 통한 LLM 내부 상태로부터 온도 정책 학습
Look Inward to Explore Outward: Learning Temperature Policy from LLM Internal States via Hierarchical RL
검증 가능한 보상을 이용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)을 샘플링된 경로를 통해 학습시키며, 이때 디코딩 전략은 학습의 핵심 구성 요소로서, 단순히 추론 시점에 선택되는 것이 아닙니다. 샘플링 온도는 정책 엔트로피를 조절하여 탐색-활용 균형을 직접적으로 제어하지만, 기존 방법은 정적인 값이나 휴리스틱한 조정에 의존하며, 이는 작업 수준의 보상과 분리되어 있습니다. 본 논문에서는 생성 과정에서 샘플링 온도를 제어하는 계층적 강화 학습 프레임워크인 Introspective LLM을 제안합니다. 각 디코딩 단계에서 모델은 자신의 숨겨진 상태를 기반으로 온도를 선택하고, 그 결과로 생성된 분포에서 다음 토큰을 샘플링합니다. 온도 및 토큰 정책은 좌표 상승 방식을 사용하여 하위 작업의 보상으로부터 공동으로 최적화됩니다. 수학적 추론 벤치마크 실험 결과, 학습된 온도 정책은 고정된 기준선 및 휴리스틱 기준선을 능가하며, 추론 불확실성과 일관된 해석 가능한 탐색 행동을 보입니다.
Reinforcement Learning from Verifiable Rewards (RLVR) trains large language models (LLMs) from sampled trajectories, making decoding strategy a core component of learning rather than a purely inference-time choice. Sampling temperature directly controls the exploration--exploitation trade-off by modulating policy entropy, yet existing methods rely on static values or heuristic adaptations that are decoupled from task-level rewards. We propose Introspective LLM, a hierarchical reinforcement learning framework that learns to control sampling temperature during generation. At each decoding step, the model selects a temperature based on its hidden state and samples the next token from the resulting distribution. Temperature and token policies are jointly optimized from downstream rewards using a coordinate ascent scheme. Experiments on mathematical reasoning benchmarks show that learned temperature policies outperform fixed and heuristic baselines, while exhibiting interpretable exploration behaviors aligned with reasoning uncertainty.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.