2602.08948v1 Feb 09, 2026 cs.AI

CoRefine: 적응형 테스트 타임 연산을 위한 신뢰도 기반 자가 정제

CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute

Ryutaro Tanno
Ryutaro Tanno
Citations: 4,315
h-index: 29
Tom Diethe
Tom Diethe
Citations: 103
h-index: 5
P. Teare
P. Teare
Citations: 104
h-index: 5
Chen Jin
Chen Jin
Citations: 89
h-index: 4

대규모 언어 모델(LLM)은 추론 정확도를 높이기 위해 병렬 디코딩(예: 512개 샘플)을 통한 테스트 타임 확장에 의존하는 경우가 많지만, 이는 상당한 연산 비용을 발생시킵니다. 본 논문에서는 동결된(frozen) LLM 위에 경량 211k 파라미터 Conv1D 컨트롤러를 사용하여, 매우 적은 토큰만으로도 경쟁력 있는 정확도를 달성하는 신뢰도 기반 자가 정제 방법인 CoRefine을 제안합니다. 이 컨트롤러는 전체 트레이스(full-trace) 신뢰도를 분석하여 중단, 재검토 또는 다른 접근 방식 시도 여부를 결정합니다. 이를 통해 문제당 평균 2.7회의 정제 단계만으로 목표 지향적인 자가 수정을 수행하며, 512개 샘플 기준 대비 약 190배의 토큰 감소 효과를 얻습니다. 다양한 추론 벤치마크와 세 가지 오픈 소스 모델에 대한 실험 결과, 컨트롤러가 확신을 가지고 중단할 경우 92.6%의 정밀도를 달성했습니다. 이는 신뢰도의 변화 양상(dynamics)이 실제 정답(ground-truth) 검증 없이도 정답 여부를 신뢰성 있게 나타냄을 시사합니다. 우리는 이를 탐색(exploration)과 활용(exploitation)의 균형을 적응적으로 조절하고, 서빙 통합이 용이하며 검증기와 호환되는 하이브리드 순차-병렬 변형인 CoRefine-Tree로 확장했습니다. 신뢰도를 정답 보장이 아닌 제어 신호로 활용함으로써, CoRefine은 확장 가능한 추론 및 불완전한 검증기가 존재하는 에이전트 환경을 위한 모듈형 기초 요소(primitive)를 제공합니다.

Original Abstract

Large Language Models (LLMs) often rely on test-time scaling via parallel decoding (for example, 512 samples) to boost reasoning accuracy, but this incurs substantial compute. We introduce CoRefine, a confidence-guided self-refinement method that achieves competitive accuracy using a fraction of the tokens via a lightweight 211k-parameter Conv1D controller atop a frozen LLM. The controller consumes full-trace confidence to decide whether to halt, re-examine, or try a different approach, enabling targeted self-correction with an average of 2.7 refinement steps per problem and roughly 190-fold token reduction relative to 512-sample baselines. Across diverse reasoning benchmarks and three open-source models, the controller achieves 92.6 percent precision when it confidently halts, indicating that confidence dynamics reliably signal correctness without ground-truth verification. We extend this to CoRefine-Tree, a hybrid sequential-parallel variant that adaptively balances exploration and exploitation, with easy serving integration and verifier compatibility. By treating confidence as a control signal rather than a correctness guarantee, CoRefine provides a modular primitive for scalable reasoning and agentic settings with imperfect verifiers.

2 Citations
1 Influential
14.5 Altmetric
76.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!