귀하의 추론 모델은 언제 사고를 멈춰야 하는지 암묵적으로 알고 있을까요?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
최근의 대규모 추론 모델(LRM)의 발전은 Long Chains of Thought (CoT)를 통해 복잡한 추론 작업에서의 성능을 크게 향상시켰습니다. 그러나 이러한 접근 방식은 종종 상당한 중복을 초래하여 계산 효율성을 저하시키고 실시간 애플리케이션에서 상당한 지연을 발생시킵니다. 최근 연구에 따르면 더 긴 추론 체인은 종종 정확성과 상관관계가 없으며, 심지어 정확도를 저해할 수도 있습니다. 이 현상에 대한 심층적인 분석을 통해, 놀랍게도 LRM이 적절한 시점에 사고를 멈춰야 한다는 것을 암묵적으로 알고 있다는 것을 발견하고 경험적으로 검증했으며, 이러한 기능은 현재의 샘플링 방식에 의해 가려지고 있습니다. 이에 영감을 받아, 효율적인 추론 잠재력을 발휘하는 새로운 샘플링 방식인 SAGE (Self-Aware Guided Efficient Reasoning)를 소개합니다. 또한, SAGE를 그룹 기반 강화 학습 (SAGE-RL)에 혼합 샘플링 방식으로 통합함으로써, SAGE-RL은 SAGE에서 발견된 효율적인 추론 패턴을 표준 pass@1 추론에 효과적으로 통합하여, 다양한 어려운 수학적 벤치마크에서 LRM의 추론 정확도와 효율성을 크게 향상시킬 수 있습니다.
Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.