2602.12113v1 Feb 12, 2026 cs.AI

불필요한 성찰 중단: 적응형 성찰 및 길이 조정 페널티를 이용한 효율적 추론을 위한 LRM 학습

Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty

Junbo Zhao
Junbo Zhao
Citations: 690
h-index: 13
Haobo Wang
Haobo Wang
Citations: 1,057
h-index: 17
Zewei Yu
Zewei Yu
Citations: 3
h-index: 1
Lirong Gao
Lirong Gao
Citations: 17
h-index: 2
Yuke Zhu
Yuke Zhu
Citations: 47
h-index: 3
Sheng Guo
Sheng Guo
Citations: 101
h-index: 3
Boyuan Zheng
Boyuan Zheng
Citations: 27
h-index: 3

대규모 추론 모델(LRM)은 테스트 타임 스케일링을 적용하여 복잡한 추론 작업에서 놀라운 성능을 입증했습니다. 그러나 이러한 모델은 종종 반복적인 자문이나 순환 논리와 같은 과도한 성찰로 인해 지나치게 긴 사고 사슬(chain-of-thought)을 생성하며, 이는 특히 소형 모델에서 정확도 향상 없이 높은 토큰 소비, 막대한 계산 비용, 지연 시간 증가를 초래합니다. 우리의 관찰에 따르면 문제의 복잡성이 증가할수록 과도하고 불필요한 성찰이 더 많이 유발되며, 이는 결과적으로 정확도를 떨어뜨리고 토큰 오버헤드를 증가시킵니다. 이러한 문제를 해결하기 위해 우리는 추론 효율성과 해결 정확도 간의 균형을 동적으로 맞추도록 설계된 새로운 강화 학습 프레임워크인 적응형 성찰 및 길이 조정 페널티(ARLCP)를 제안합니다. ARLCP는 두 가지 핵심 혁신을 도입합니다: (1) 필수적인 추론은 보존하면서 불필요한 성찰 단계를 적응적으로 줄이는 성찰 페널티, (2) 문제의 추정된 복잡도에 맞춰 조정된 길이 페널티입니다. 이러한 페널티들을 조정함으로써 ARLCP는 모델이 더 간결하고 효과적인 추론 경로를 생성하도록 유도합니다. 우리는 DeepSeek-R1-Distill-Qwen-1.5B 및 DeepSeek-R1-Distill-Qwen-7B 모델을 사용하여 5가지 수학적 추론 벤치마크에서 제안한 방법을 평가했습니다. 실험 결과, ARLCP는 기존 접근 방식에 비해 우수한 효율성-정확도 트레이드오프를 달성하는 것으로 나타났습니다. 1.5B 모델의 경우, 평균 응답 길이를 53.1% 줄이면서 동시에 정확도를 5.8% 향상시켰습니다. 7B 모델의 경우, 길이를 35.0% 줄이면서 2.7%의 정확도 향상을 달성했습니다. 코드는 https://github.com/ZeweiYu1/ARLCP 에 공개되어 있습니다.

Original Abstract

Large Reasoning Models (LRMs) have demonstrated remarkable performance on complex reasoning tasks by employing test-time scaling. However, they often generate over-long chains-of-thought that, driven by substantial reflections such as repetitive self-questioning and circular reasoning, lead to high token consumption, substantial computational overhead, and increased latency without improving accuracy, particularly in smaller models. Our observation reveals that increasing problem complexity induces more excessive and unnecessary reflection, which in turn reduces accuracy and increases token overhead. To address this challenge, we propose Adaptive Reflection and Length Coordinated Penalty (ARLCP), a novel reinforcement learning framework designed to dynamically balance reasoning efficiency and solution accuracy. ARLCP introduces two key innovations: (1) a reflection penalty that adaptively curtails unnecessary reflective steps while preserving essential reasoning, and (2) a length penalty calibrated to the estimated complexity of the problem. By coordinating these penalties, ARLCP encourages the model to generate more concise and effective reasoning paths. We evaluate our method on five mathematical reasoning benchmarks using DeepSeek-R1-Distill-Qwen-1.5B and DeepSeek-R1-Distill-Qwen-7B models. Experimental results show that ARLCP achieves a superior efficiency-accuracy trade-off compared to existing approaches. For the 1.5B model, it reduces the average response length by 53.1% while simultaneously improving accuracy by 5.8%. For the 7B model, it achieves a 35.0% reduction in length with a 2.7% accuracy gain. The code is released at https://github.com/ZeweiYu1/ARLCP .

0 Citations
0 Influential
31.9657359028 Altmetric
159.8 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!