테스트 시간 강화 학습을 위한 도구 검증
Tool Verification for Test-Time Reinforcement Learning
테스트 시간 강화 학습(TTRL)은 자체적으로 진화하는 대규모 추론 모델(LRM)에 대한 유망한 패러다임으로, 다수결 투표를 통해 자체적으로 생성된 보상을 사용하여 레이블이 없는 테스트 입력에 대한 온라인 적응을 가능하게 합니다. 그러나 검증되지 않은, 하지만 빈번하게 발생하는 잘못된 합의는 편향되고 강화된 보상 신호가 되어 잘못된 모드 붕괴를 초래할 수 있습니다. 본 연구에서는 T^3RL(Tool-Verification for Test-Time Reinforcement Learning)을 통해 이러한 문제점을 해결합니다. T^3RL은 보상 추정 과정에 테스트 시간 도구 검증을 도입합니다. 구체적으로, 검증기는 외부 도구를 증거로 사용하여(예: 코드 실행 결과) 검증-인식 투표에서 검증된 실행 경로에 더 높은 가중치를 부여함으로써, 학습을 위한 더욱 신뢰할 수 있는 가짜 레이블을 생성합니다. 다양한 난이도의 수학 문제(MATH-500, AMC, AIME 2024)와 다양한 백본 모델에서 T^3RL은 TTRL보다 성능이 크게 향상되었으며, 특히 더 어려운 문제에서 더 큰 성능 향상을 보였습니다. 더 넓은 관점에서, T^3RL은 검증된 온라인 데이터 합성으로 볼 수 있으며, 이는 테스트 시간 도구 검증이 자체 진화를 안정화하는 핵심 메커니즘임을 강조합니다.
Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.