2603.19880v1 Mar 20, 2026 cs.LG

만약 합의가 틀렸다면? 테스트 시점에서의 선택적-보완적 강화 학습

What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

Ran He
Ran He
Citations: 117
h-index: 5
Shuo Lu
Shuo Lu
Citations: 38
h-index: 2
Yanbo Wang
Yanbo Wang
Citations: 41
h-index: 4
Tieniu Tan
Tieniu Tan
Citations: 174
h-index: 5
Dong Yan
Dong Yan
Citations: 982
h-index: 2
Jianxin Liang
Jianxin Liang
Citations: 176
h-index: 6

테스트 시점 강화 학습(TTRL)은 대규모 언어 모델(LLM)이 다수 투표 합의를 통해 얻은 가짜 보상을 활용하여 레이블이 없는 테스트 데이터 스트림에 대한 추론 능력을 향상시킵니다. 그러나 기존의 TTRL 방법은 긍정적인 가짜 레이블링 전략에만 의존합니다. 이러한 의존성은 답변 분포가 매우 분산되어 있어 약한 합의를 유발하고, 이는 실수로 잘못된 경로를 강화 신호로 사용하게 만들어 문제를 야기합니다. 본 논문에서는 레이블 노이즈 증폭을 효과적으로 완화하는 강력한 테스트 시점 강화 학습 프레임워크인 SCRL(Selective-Complementary Reinforcement Learning)을 제안합니다. SCRL은 신뢰할 수 없는 다수 투표 결과를 필터링하기 위한 엄격한 합의 기준을 적용하는 선택적 긍정적 가짜 레이블링을 개발합니다. 또한, SCRL은 TTRL에서 처음으로 도입되는 엔트로피 게이팅을 활용한 부정적 가짜 레이블링 메커니즘을 통해 생성 불확실성을 기반으로 잘못된 경로를 안정적으로 제거합니다. 다양한 추론 벤치마크에 대한 광범위한 실험 결과, SCRL은 기존 방법보다 상당한 성능 향상을 보이며, 제한된 실행 예산 하에서 강력한 일반화 성능과 안정적인 학습을 유지합니다. 저희의 코드는 https://github.com/Jasper-Yan/SCRL 에서 확인할 수 있습니다.

Original Abstract

Test-Time Reinforcement Learning (TTRL) enables Large Language Models (LLMs) to enhance reasoning capabilities on unlabeled test streams by deriving pseudo-rewards from majority voting consensus. However, existing TTRL methods rely exclusively on positive pseudo-labeling strategies. Such reliance becomes vulnerable under challenging scenarios where answer distributions are highly dispersed, resulting in weak consensus that inadvertently reinforces incorrect trajectories as supervision signals. In this paper, we propose SCRL (Selective-Complementary Reinforcement Learning), a robust test-time reinforcement learning framework that effectively mitigates label noise amplification. SCRL develops Selective Positive Pseudo-Labeling, which enforces strict consensus criteria to filter unreliable majorities. Complementarily, SCRL introduces Entropy-Gated Negative Pseudo-Labeling, the first negative supervision mechanism in TTRL, to reliably prune incorrect trajectories based on generation uncertainty. Extensive experiments on multiple reasoning benchmarks demonstrate that SCRL achieves substantial improvements over baselines, while maintaining robust generalization and training stability under constrained rollout budgets. Our code is available at https://github.com/Jasper-Yan/SCRL.

1 Citations
0 Influential
28.493061443341 Altmetric
143.5 Score
Original PDF
2

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!