모델 스케일링을 넘어: 효율적인 심층 추론을 위한 테스트 시간 개입
Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning
대규모 추론 모델(LRMs)은 다단계 추론에 뛰어나지만, 종종 과도한 생각(overthinking)이나 지나친 비약(overshoot)과 같은 비효율적인 추론 과정을 겪으며, 이는 불필요하거나 잘못된 방향의 추론으로 이어져 연산 비용을 증가시키고 성능을 저하시킵니다. 기존의 효율적인 추론 방법들은 폐루프(closed-loop) 방식으로 작동하여, 추론 과정을 유도할 수 있는 외부 개입 메커니즘이 부족합니다. 이를 해결하기 위해 본 논문에서는 추론 과정에 외부 피드백 개입을 도입하는 새로운 테스트 시간 상호작용 추론 패러다임인 'Think-with-Me'를 제안합니다. 우리의 핵심 통찰은 전환 접속사가 개입을 위한 자연스러운 지점으로서 자기 검증이나 탐색 단계를 알리는 역할을 하며, 전환어를 적절히 사용하여 추론을 연장하면 성능이 향상되지만 과도한 사용은 오히려 성능을 저하시킨다는 점입니다. 이러한 통찰을 바탕으로 Think-with-Me는 해당 지점에서 추론을 일시 중지하여 외부 피드백을 받고, 상황에 맞게 추론을 연장하거나 종료함으로써 정확도를 유지하면서 중복을 줄입니다. 피드백은 다중 기준 평가(합리성 및 완전성)를 통해 생성되며 인간 또는 LLM 프록시로부터 제공됩니다. 우리는 타겟 모델이 이러한 상호작용 모드에 적응하도록 그룹 상대 정책 최적화(GRPO)를 사용하여 훈련시켰습니다. 실험 결과, Think-with-Me는 제한된 컨텍스트 윈도우 내에서 정확도와 추론 길이 간의 우수한 균형을 달성하는 것으로 나타났습니다. AIME24 벤치마크에서 Think-with-Me는 8K 윈도우 환경 하에 QwQ-32B 대비 평균 추론 길이를 81% 줄이면서도 정확도는 7.19% 향상시켰습니다. 이 패러다임은 보안 및 창의적 작업에도 유용합니다.
Large Reasoning Models (LRMs) excel at multi-step reasoning but often suffer from inefficient reasoning processes like overthinking and overshoot, where excessive or misdirected reasoning increases computational cost and degrades performance. Existing efficient reasoning methods operate in a closed-loop manner, lacking mechanisms for external intervention to guide the reasoning process. To address this, we propose Think-with-Me, a novel test-time interactive reasoning paradigm that introduces external feedback intervention into the reasoning process. Our key insights are that transitional conjunctions serve as natural points for intervention, signaling phases of self-validation or exploration and using transitional words appropriately to prolong the reasoning enhances performance, while excessive use affects performance. Building on these insights, Think-with-Me pauses reasoning at these points for external feedback, adaptively extending or terminating reasoning to reduce redundancy while preserving accuracy. The feedback is generated via a multi-criteria evaluation (rationality and completeness) and comes from either human or LLM proxies. We train the target model using Group Relative Policy Optimization (GRPO) to adapt to this interactive mode. Experiments show that Think-with-Me achieves a superior balance between accuracy and reasoning length under limited context windows. On AIME24, Think-with-Me outperforms QwQ-32B by 7.19% in accuracy while reducing average reasoning length by 81% under an 8K window. The paradigm also benefits security and creative tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.