CoRefine: 적응형 테스트 타임 연산을 위한 신뢰도 기반 자가 정제
CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute
대규모 언어 모델(LLM)은 추론 정확도를 높이기 위해 병렬 디코딩(예: 512개 샘플)을 통한 테스트 타임 확장에 의존하는 경우가 많지만, 이는 상당한 연산 비용을 발생시킵니다. 본 논문에서는 동결된(frozen) LLM 위에 경량 211k 파라미터 Conv1D 컨트롤러를 사용하여, 매우 적은 토큰만으로도 경쟁력 있는 정확도를 달성하는 신뢰도 기반 자가 정제 방법인 CoRefine을 제안합니다. 이 컨트롤러는 전체 트레이스(full-trace) 신뢰도를 분석하여 중단, 재검토 또는 다른 접근 방식 시도 여부를 결정합니다. 이를 통해 문제당 평균 2.7회의 정제 단계만으로 목표 지향적인 자가 수정을 수행하며, 512개 샘플 기준 대비 약 190배의 토큰 감소 효과를 얻습니다. 다양한 추론 벤치마크와 세 가지 오픈 소스 모델에 대한 실험 결과, 컨트롤러가 확신을 가지고 중단할 경우 92.6%의 정밀도를 달성했습니다. 이는 신뢰도의 변화 양상(dynamics)이 실제 정답(ground-truth) 검증 없이도 정답 여부를 신뢰성 있게 나타냄을 시사합니다. 우리는 이를 탐색(exploration)과 활용(exploitation)의 균형을 적응적으로 조절하고, 서빙 통합이 용이하며 검증기와 호환되는 하이브리드 순차-병렬 변형인 CoRefine-Tree로 확장했습니다. 신뢰도를 정답 보장이 아닌 제어 신호로 활용함으로써, CoRefine은 확장 가능한 추론 및 불완전한 검증기가 존재하는 에이전트 환경을 위한 모듈형 기초 요소(primitive)를 제공합니다.
Large Language Models (LLMs) often rely on test-time scaling via parallel decoding (for example, 512 samples) to boost reasoning accuracy, but this incurs substantial compute. We introduce CoRefine, a confidence-guided self-refinement method that achieves competitive accuracy using a fraction of the tokens via a lightweight 211k-parameter Conv1D controller atop a frozen LLM. The controller consumes full-trace confidence to decide whether to halt, re-examine, or try a different approach, enabling targeted self-correction with an average of 2.7 refinement steps per problem and roughly 190-fold token reduction relative to 512-sample baselines. Across diverse reasoning benchmarks and three open-source models, the controller achieves 92.6 percent precision when it confidently halts, indicating that confidence dynamics reliably signal correctness without ground-truth verification. We extend this to CoRefine-Tree, a hybrid sequential-parallel variant that adaptively balances exploration and exploitation, with easy serving integration and verifier compatibility. By treating confidence as a control signal rather than a correctness guarantee, CoRefine provides a modular primitive for scalable reasoning and agentic settings with imperfect verifiers.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.