당신의 추론 모델은 언제 생각을 멈춰야 할지 암묵적으로 알고 있는가?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
대규모 추론 모델(LRMs)의 최근 발전은 긴 사고 사슬(CoTs)을 통해 복잡한 추론 작업에서의 성능을 크게 향상시켰습니다. 그러나 이러한 접근 방식은 종종 상당한 중복을 초래하여 연산 효율성을 저해하고 실시간 애플리케이션에서 심각한 지연을 유발합니다. 최근 연구에 따르면 더 긴 추론 사슬은 정답 여부와 상관관계가 없는 경우가 많으며 심지어 정확도에 부정적인 영향을 미칠 수도 있습니다. 이 현상에 대한 추가적인 심층 분석을 통해, 우리는 놀랍게도 LRMs가 생각을 멈추기에 적절한 시점을 암묵적으로 알고 있음을 발견하고 실증했습니다. 다만 이러한 능력은 현재의 샘플링 패러다임에 의해 가려져 있을 뿐입니다. 이에 착안하여 우리는 이러한 효율적인 추론 잠재력을 이끌어내는 새로운 샘플링 패러다임인 SAGE(Self-Aware Guided Efficient Reasoning)를 소개합니다. 나아가 SAGE를 혼합 샘플링으로 그룹 기반 강화 학습(SAGE-RL)에 통합함으로써, SAGE-RL이 SAGE가 발견한 효율적인 추론 패턴을 표준 pass@1 추론에 효과적으로 반영할 수 있게 하였으며, 이를 통해 다수의 고난이도 수학 벤치마크에서 LRMs의 추론 정확도와 효율성을 모두 현저하게 향상시켰습니다.
Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.