2602.22556v1 Feb 26, 2026 cs.LG

장점 형성 및 길이 인지 기울기 조절을 통한 안정적인 적응적 추론

Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation

Chen Qian
Chen Qian
Citations: 10
h-index: 2
Lijun Li
Lijun Li
Citations: 3
h-index: 1
Ziqi Miao
Ziqi Miao
Citations: 20
h-index: 3
Zihang Xu
Zihang Xu
Citations: 17
h-index: 2
Haozhi Xie
Haozhi Xie
Citations: 3
h-index: 1
Wuxuan Gong
Wuxuan Gong
Citations: 21
h-index: 3

대규모 추론 모델(LRM)은 확장된 추론 과정을 통해 강력한 성능을 달성하지만, 복잡도가 낮은 질문에 대해서는 과도한 사고를 보이는 경향이 있습니다. 이러한 문제를 완화하기 위한 기존의 노력은 불안정한 정확도-효율성 균형과 다양한 추론 방식에 대한 낮은 강건성으로 인해 근본적인 한계를 가지고 있습니다. 이러한 문제점을 해결하기 위해, 우리는 LRM에서 안정적인 적응적 추론을 위한 두 단계 프레임워크를 제안합니다. 이 프레임워크는 먼저 하이브리드 미세 조정을 적용하여 모델이 사고와 비사고 행동을 모두 경험하도록 하여, 잘 조정된 초기 상태를 구축합니다. 그런 다음, 정확성 보존 장점 형성(CPAS)을 통해 올바른 긴 추론 과정을 억제하지 않고, 길이 인지 기울기 조절(LAGR)을 통해 극심한 추론 길이의 다양성 하에서 최적화를 안정화시키는 적응적 강화 학습을 수행합니다. Qwen2.5-1.5B 및 7B 모델에 대한 광범위한 실험 결과, 강력한 기준 모델보다 일관되게 성능이 향상되었으며, 최대 +3.7/+3.6의 정확도 향상과 함께 생성된 토큰 수를 각각 40.6%/43.9% 감소시켰습니다. 다양한 문제 난이도와 일반화되지 않은 작업에 대한 추가 분석은 본 접근 방식의 강건성과 일반화 능력을 확인합니다.

Original Abstract

Large reasoning models (LRMs) achieve strong performance through extended reasoning traces, but they often exhibit overthinking behavior for low-complexity queries. Existing efforts to mitigate this issue are fundamentally limited by unstable accuracy-efficiency trade-offs and poor robustness to heterogeneous reasoning behaviors. To address these challenges, we propose a two-stage framework for stable adaptive thinking in LRMs. The framework first applies Hybrid Fine-Tuning to expose the model to both thinking and no-thinking behaviors, establishing well-conditioned initialization. It then performs adaptive reinforcement learning with Correctness-Preserving Advantage Shaping (CPAS) to avoid suppressing correct long-chain reasoning, and Length-Aware Gradient Regulation (LAGR) to stabilize optimization under severe reasoning-length heterogeneity. Extensive experiments on Qwen2.5-1.5B and 7B show consistent improvements over strong baselines, achieving up to +3.7/+3.6 accuracy points while reducing generated tokens by 40.6%/43.9%. Further analyses across varying problem difficulties and out-of-distribution tasks confirm the robustness and generalization of our approach.

2 Citations
0 Influential
1.5 Altmetric
9.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!