장점 형성 및 길이 인지 기울기 조절을 통한 안정적인 적응적 추론
Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation
대규모 추론 모델(LRM)은 확장된 추론 과정을 통해 강력한 성능을 달성하지만, 복잡도가 낮은 질문에 대해서는 과도한 사고를 보이는 경향이 있습니다. 이러한 문제를 완화하기 위한 기존의 노력은 불안정한 정확도-효율성 균형과 다양한 추론 방식에 대한 낮은 강건성으로 인해 근본적인 한계를 가지고 있습니다. 이러한 문제점을 해결하기 위해, 우리는 LRM에서 안정적인 적응적 추론을 위한 두 단계 프레임워크를 제안합니다. 이 프레임워크는 먼저 하이브리드 미세 조정을 적용하여 모델이 사고와 비사고 행동을 모두 경험하도록 하여, 잘 조정된 초기 상태를 구축합니다. 그런 다음, 정확성 보존 장점 형성(CPAS)을 통해 올바른 긴 추론 과정을 억제하지 않고, 길이 인지 기울기 조절(LAGR)을 통해 극심한 추론 길이의 다양성 하에서 최적화를 안정화시키는 적응적 강화 학습을 수행합니다. Qwen2.5-1.5B 및 7B 모델에 대한 광범위한 실험 결과, 강력한 기준 모델보다 일관되게 성능이 향상되었으며, 최대 +3.7/+3.6의 정확도 향상과 함께 생성된 토큰 수를 각각 40.6%/43.9% 감소시켰습니다. 다양한 문제 난이도와 일반화되지 않은 작업에 대한 추가 분석은 본 접근 방식의 강건성과 일반화 능력을 확인합니다.
Large reasoning models (LRMs) achieve strong performance through extended reasoning traces, but they often exhibit overthinking behavior for low-complexity queries. Existing efforts to mitigate this issue are fundamentally limited by unstable accuracy-efficiency trade-offs and poor robustness to heterogeneous reasoning behaviors. To address these challenges, we propose a two-stage framework for stable adaptive thinking in LRMs. The framework first applies Hybrid Fine-Tuning to expose the model to both thinking and no-thinking behaviors, establishing well-conditioned initialization. It then performs adaptive reinforcement learning with Correctness-Preserving Advantage Shaping (CPAS) to avoid suppressing correct long-chain reasoning, and Length-Aware Gradient Regulation (LAGR) to stabilize optimization under severe reasoning-length heterogeneity. Extensive experiments on Qwen2.5-1.5B and 7B show consistent improvements over strong baselines, achieving up to +3.7/+3.6 accuracy points while reducing generated tokens by 40.6%/43.9%. Further analyses across varying problem difficulties and out-of-distribution tasks confirm the robustness and generalization of our approach.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.