ORBIT: 입력에 따른 제어 가능한 다중 예산 추론을 위한 온-정책 탐색-활용
ORBIT: On-policy Exploration-Exploitation for Controllable Multi-Budget Reasoning
최근의 대규모 추론 모델(LRM)은 긴 형식의 연쇄적 사고(CoT) 추론을 활용하여 뛰어난 성능을 달성하지만, 추론 시에 일률적으로 과도한 추론을 적용하면 상당하고 불필요한 계산 비용이 발생합니다. 이러한 문제를 해결하기 위해, 기존 연구에서는 입력으로부터 적절한 추론 예산을 추론하는 다양한 전략을 탐구했습니다. 그러나 이러한 접근 방식은 최악의 경우 신뢰성이 떨어지는데, 필요한 최소 추론 노력을 추정하는 것은 근본적으로 어렵기 때문이며, 또한 이러한 방식은 훈련 중에 추론 비용과 정확성 간의 균형을 고정시켜 다양한 배포 시나리오에서의 유연성을 제한합니다. 이러한 한계에 따라, 우리는 입력에 의해 활성화되는 잘 분리된 추론 모드를 갖는 제어 가능한 다중 예산 추론 프레임워크인 ORBIT를 제안합니다. ORBIT는 다단계 강화 학습을 사용하여 각 노력을 기준으로 파레토 최적의 추론 행동을 발견하고, 이어서 이러한 행동을 단일 통합 모델로 융합하기 위한 온-정책 증류를 사용합니다. 실험 결과는 ORBIT가 (1) 여러 모드에 걸쳐 제어 가능한 추론 행동을 달성하고, (2) 각 모드 내에서 경쟁력 있는 추론 밀도를 유지하며, (3) 이러한 최첨단 정책을 명확한 모드 분리 및 높은 모드별 성능을 유지하면서 단일 통합 학생 모델로 통합할 수 있음을 보여줍니다.
Recent Large Reasoning Models (LRMs) achieve strong performance by leveraging long-form Chain-of-Thought (CoT) reasoning, but uniformly applying overlong reasoning at inference time incurs substantial and often unnecessary computational cost. To address this, prior work explores various strategies to infer an appropriate reasoning budget from the input. However, such approaches are unreliable in the worst case, as estimating the minimal required reasoning effort is fundamentally difficult, and they implicitly fix the trade-off between reasoning cost and accuracy during training, limiting flexibility under varying deployment scenarios. Motivated by these limitations, we propose ORBIT, a controllable multi-budget reasoning framework with well-separated reasoning modes triggered by input. ORBIT employs multi-stage reinforcement learning to discover Pareto-optimal reasoning behaviors at each effort, followed by on-policy distillation to fuse these behaviors into a single unified model. Experiments show that ORBIT achieves (1) controllable reasoning behavior over multiple modes, (2) competitive reasoning density within each mode, and (3) integration of these frontier policies into a single unified student model while preserving clear mode separation and high per-mode performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.