마르코프 상태 재적용을 통한 LLM 사후 훈련 능력 한계 극복
Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States
강화 학습(RL)은 대규모 언어 모델(LLM)의 사후 훈련 및 정렬을 위한 표준 패러다임이 되었지만, 최근 연구 결과는 RL이 지속적인 '능력 한계'에 직면해 있음을 시사합니다. 기존 RL 시스템은 새로운 전략을 발견하는 반면, LLM의 RL은 종종 사전 훈련된 가중치에 내재된 패턴을 단순하게 개선하는 역할에 그치는 경향이 있습니다. 본 연구에서는 근본적인 구조적 병목 현상을 밝혀냅니다. 기존 RL은 간결하고 유용한 마르코프 상태에 의존하는 반면, 현재 LLM 사후 훈련 방식은 끊임없이 확장되는 행동 기록에 묶여 있습니다. 본 연구는 LLM 사후 훈련에서 오랫동안 중요했지만 현재는 적용되지 않았던 고전적인 원칙, 즉 명시적인 마르코프 상태를 재검토합니다. 이론적으로, 추정된 마르코프 상태를 활용하면 샘플 복잡성을 크게 줄일 수 있음을 엄밀하게 보장하는 결과를 제시합니다. 실험적으로, 마르코프 상태를 도입하면 다양한 복잡한 논리 퍼즐에서 표준 RL 사후 훈련의 성능 한계를 지속적으로 극복할 수 있음을 보여줍니다. 이러한 결과는 생성형 AI에서 개방형 발견과 진정으로 새로운 추론 능력을 발휘하기 위해서는 '역사를 상태로' 모델링에서 벗어나 구조화된 마르코프 표현을 사용하는 것이 필수적임을 시사합니다.
Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions. We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.