불완전한 검증기도 충분하다: 노이즈가 있는 보상을 이용한 학습
An Imperfect Verifier is Good Enough: Learning with Noisy Rewards
검증 가능한 보상을 이용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 사후 훈련에 널리 사용되는 방법입니다. 그러나 검증기는 거의 완벽하지 않으며, 결정적인 검사조차도 부정확할 수 있으며, 모델 기반 판단에 대한 의존도가 높아짐에 따라 이러한 문제는 더욱 심화됩니다. RLVR이 이러한 노이즈에 얼마나 강건하며, 효과적인 훈련을 위해 필요한 검증기 정확도는 여전히 해결되지 않은 질문입니다. 본 연구에서는 코드 생성 및 과학적 추론 영역에서 RL 훈련에 노이즈를 도입하여 이러한 질문을 조사합니다. 최대 15%의 노이즈율에서도 검증 정확도는 깨끗한 기준 성능과 2%p 이내의 최고 성능을 보였습니다. 이러한 결과는 제어된 노이즈와 모델 기반 노이즈 유형 모두에서, 세 가지 모델 계열(Qwen3, GLM4, Llama 3.1) 및 4B에서 9B까지의 다양한 모델 크기에서 일관되게 나타났습니다. 전반적으로, 결과는 불완전한 검증이 RLVR의 근본적인 장벽이 아니라는 것을 시사합니다. 또한, 본 연구 결과는 실무자들이 완벽한 검증보다 적당한 정확도와 높은 정밀도를 우선시해야 함을 제안합니다.
Reinforcement Learning with Verifiable Rewards (RLVR) has become a prominent method for post-training Large Language Models (LLMs). However, verifiers are rarely error-free; even deterministic checks can be inaccurate, and the growing dependence on model-based judges exacerbates the issue. The extent to which RLVR is robust to such noise and the verifier accuracy required for effective training remain unresolved questions. We investigate these questions in the domains of code generation and scientific reasoning by introducing noise into RL training. Noise rates up to 15% yield peak validation accuracy within 2 percentage points of the clean baseline. These findings are consistent across controlled and model-based noise types, three model families (Qwen3, GLM4, Llama 3.1), and model sizes from 4B to 9B. Overall, the results indicate that imperfect verification does not constitute a fundamental barrier to RLVR. Furthermore, our findings suggest that practitioners should prioritize moderate accuracy with high precision over perfect verification.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.