대규모 추론 언어 모델에서 추론 경로 이탈 모니터링을 통한 과도한 사고 방지
Mitigating Overthinking in Large Reasoning Language Models via Reasoning Path Deviation Monitoring
대규모 추론 언어 모델(LRLM)은 긴 연쇄 추론(Chain-of-Thought)을 활용하여 복잡한 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 모델은 과도한 사고 경향이 있으며, 이는 성능과 효율성을 저하시키는 불필요한 추론 단계를 생성합니다. 최근에는 과도한 사고를 완화하기 위해 동적이고 적응적으로 불필요한 추론을 종료하는 조기 종료(early-exit) 전략이 제안되었습니다. 그러나 현재의 조기 종료 방법은 프록시 모델에 의존하여 추가적인 학습 부담을 가중시키거나, 추론과 답변 생성 사이의 빈번한 내용 전환으로 인해 추론 처리량을 제한하는 문제가 있습니다. 또한, 대부분의 조기 종료 방법은 과도한 자르기를 통해 LRLM의 성능을 저하시킵니다. 본 연구에서는 LRLM이 과도한 사고를 할 때, 종종 올바른 추론 경로에서 벗어나고, 이는 높은 엔트로피의 전환 토큰으로 자주 동반된다는 점에 주목했습니다. 이를 바탕으로, 우리는 LRLM의 기본적인 추론 과정과 깊이 결합된 조기 종료 방법을 제안합니다. 이 방법은 추론 경로 이탈 지수를 전용 모니터링 지표로 활용하여, 빈번하게 발생하는 높은 엔트로피의 전환 토큰을 통해 과도한 사고 경로를 동적으로 감지하고 종료합니다. 다양한 유형과 규모의 LRLM을 사용하여 여러 벤치마크에서 실험을 수행한 결과, 제안하는 방법은 기존의 조기 종료 방법에 비해 원본 CoT(Chain-of-Thought) 방식보다 가장 큰 성능 향상을 제공한다는 것을 확인했습니다.
Large Reasoning Language Models (LRLMs) demonstrate impressive capabilities on complex tasks by utilizing long Chain-of-Thought reasoning. However, they are prone to overthinking, which generates redundant reasoning steps that degrade both performance and efficiency. Recently, early-exit strategies are proposed to mitigate overthinking by dynamically and adaptively terminating redundant reasoning. However, current early-exit methods either introduce extra training overhead by relying on proxy models or limit inference throughput due to the frequent content switching between reasoning and generating probing answers. Moreover, most early-exit methods harm LRLMs performance due to over-truncation. Our insight stems from an observation: overthinking often causes LRLMs to deviate from the correct reasoning path, which is frequently accompanied by high-entropy transition tokens. Given this, we propose an early-exit method deeply coupled with the native reasoning process, which leverages the path deviation index as a dedicated monitoring metric for the frequent occurrence of high-entropy transition tokens to dynamically detect and terminate overthinking trajectories. We conduct experiments across multiple benchmarks using LRLMs of different types and scales, and the results indicate that our method delivers the largest performance improvement over vanilla CoT compared to existing early-exit methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.