암묵적 압축 정규화: 강화 학습 후처리 과정에서 내부적으로 더 짧은 분포를 활용한 간결한 추론
Implicit Compression Regularization: Concise Reasoning via Internal Shorter Distributions in RL Post-Training
검증 가능한 보상을 사용하는 강화 학습은 LLM의 추론 능력을 향상시키지만, 종종 모델이 불필요하게 긴 추론 과정을 생성하는 과도한 사고를 유발합니다. 기존 방법은 주로 길이 페널티 또는 조기 종료 전략에 의존하지만, 전자는 정확도를 저하시키고 과소 사고를 유발할 수 있으며, 후자는 추론 과정의 상당 부분을 안전하게 잘라낼 수 있다고 가정합니다. 이러한 제약 없이 압축 신호를 얻기 위해, 기존 압축 방법의 학습 과정을 재검토했습니다. 우리는 길이와 정확성 간의 상관관계가 초기에는 음수이지만 압축 과정이 진행됨에 따라 지속적으로 증가한다는 것을 관찰했습니다. 이는 짧은 응답이 초기에는 더 정확할 가능성이 높지만, 정책이 과소 사고로 이동함에 따라 이러한 특성을 점차 잃어버린다는 것을 의미합니다. 이러한 관찰을 바탕으로, 우리는 과도한 사고를 다음과 같이 정의합니다. 음의 상관관계는 과도한 사고 단계, 양의 상관관계는 과소 사고 단계를 나타냅니다. 과도한 사고 상태에서는, 가장 짧고 올바른 응답의 길이는 예상 평균 응답 길이보다 짧으며, 이는 이미 온-정책 롤아웃에서 존재하는 자연스러운 압축 대상입니다. 따라서 우리는 extit{암묵적 압축 정규화}(ICR)라는 온-정책 정규화 방법을 제안합니다. ICR은 롤아웃 그룹에서 가장 짧고 올바른 응답에 의해 유도되는 가상의 짧은 분포에서 압축 신호를 얻어, 정책을 간결하면서도 정확한 경로로 유도합니다. 학습 과정 분석 결과, ICR은 압축 과정 동안 길이와 정확성 간의 상관관계를 더 잘 유지하며, 이는 짧은 응답이 과소 사고로 치우치지 않고 정확성과 더 잘 일치한다는 것을 나타냅니다. 세 가지 추론 모델과 다양한 수학 및 지식 기반 벤치마크에 대한 실험 결과, ICR은 일관되게 응답 길이를 단축하면서 정확도를 유지하거나 향상시켜, 더 강력한 정확성-길이 파레토 프런티어를 달성합니다.
Reinforcement learning with verifiable rewards improves LLM reasoning but often induces overthinking, where models generate unnecessarily long reasoning traces. Existing methods mainly rely on length penalties or early-exit strategies; however, the former may degrade accuracy and induce underthinking, whereas the latter assumes that substantial portions of reasoning traces can be safely truncated. To obtain a compression signal without these limitations, we revisit the training dynamics of existing compression methods. We observe that the length--accuracy correlation is initially negative but continually increases during compression, indicating that shorter responses are initially more likely to be correct but gradually lose this property as the policy moves toward underthinking. Based on this observation, we formalize overthinking: a negative correlation indicates an overthinking regime, while a positive one indicates underthinking. When overthinking, the shortest correct responses are shorter than the group-average response length in expectation, making them natural compression targets already present in on-policy rollouts. We therefore propose \emph{Implicit Compression Regularization} (ICR), an on-policy regularization method whose compression signal comes from a virtual shorter distribution induced by the shortest correct responses in rollout groups, guiding the policy toward concise yet correct trajectories. Training dynamics show that ICR maintains a better length--accuracy correlation during compression, indicating that short responses remain better aligned with correctness instead of drifting toward underthinking. Experiments on three reasoning backbones and multiple mathematical and knowledge-intensive benchmarks show that ICR consistently shortens responses while preserving or improving accuracy, achieving a stronger accuracy--length Pareto frontier.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.