ECHO: 엔트로피-신뢰 기반 하이브리드 최적화 기법을 활용한 테스트 시간 강화 학습
ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning
테스트 시간 강화 학습은 반복적인 시행(rollout)을 통해 여러 후보 답변을 생성하고, 다수결 투표를 통해 생성된 의사 레이블을 사용하여 온라인 업데이트를 수행합니다. 이러한 방식의 오버헤드를 줄이고 탐색 효율을 높이기 위해, 기존 연구에서는 트리 구조의 시행 방식을 도입하여 추론 과정을 공유하고 핵심 노드에서 분기하여 샘플링 효율성을 향상시켰습니다. 그러나 이러한 방식은 여전히 다음과 같은 두 가지 문제점을 안고 있습니다. (1) 높은 엔트로피를 가진 분기는 시행 과정의 붕괴를 유발할 수 있습니다. 이는 분기 예산이 연속적으로 높은 엔트로피를 가진 경로에 집중되어, 효과적인 분기 경로의 수를 급격히 감소시키기 때문입니다. (2) 초기에 생성된 의사 레이블은 노이즈가 많고 편향되어 있어, 정책이 조기에 수렴하고 탐색을 억제하는 자기 강화적인 과적합을 유발할 수 있습니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 엔트로피-신뢰 기반 하이브리드 그룹 상대 정책 최적화(ECHO) 기법을 제안합니다. ECHO는 시행 과정에서 로컬 엔트로피와 그룹 수준의 신뢰도를 함께 활용하여 분기 너비를 적응적으로 제어하고, 지속적으로 낮은 신뢰도를 보이는 분기를 온라인으로 제거하는 신뢰도 기반 가지치기를 도입하여 높은 엔트로피에 의한 붕괴를 방지합니다. 정책 업데이트 과정에서, ECHO는 신뢰도에 따른 적응적 클리핑과 엔트로피-신뢰도 기반 보상 형성 방식을 사용하여 학습의 안정성을 높이고 초기 단계의 편향을 완화합니다. 실험 결과, ECHO는 다양한 수학적 및 시각적 추론 벤치마크에서 일관된 성능 향상을 보여주었으며, 제한된 시행 예산 하에서도 더 효과적인 일반화 성능을 나타냈습니다.
Test-time reinforcement learning generates multiple candidate answers via repeated rollouts and performs online updates using pseudo-labels constructed by majority voting. To reduce overhead and improve exploration, prior work introduces tree structured rollouts, which share reasoning prefixes and branch at key nodes to improve sampling efficiency. However, this paradigm still faces two challenges: (1) high entropy branching can trigger rollout collapse, where the branching budget concentrates on a few trajectories with consecutive high-entropy segments, rapidly reducing the number of effective branches; (2) early pseudo-labels are noisy and biased, which can induce self-reinforcing overfitting, causing the policy to sharpen prematurely and suppress exploration. To address these issues, we propose Entropy Confidence Hybrid Group Relative Policy Optimization (ECHO). During rollout, ECHO jointly leverages local entropy and group level confidence to adaptively control branch width, and further introduces online confidence-based pruning to terminate persistently low confidence branches, avoiding high entropy traps and mitigating collapse. During policy updates, ECHO employs confidence adaptive clipping and an entropy confidence hybrid advantage shaping approach to enhance training robustness and mitigate early stage bias. Experiments demonstrate that ECHO achieves consistent gains on multiple mathematical and visual reasoning benchmarks, and generalizes more effectively under a limited rollout budget.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.