더 적은 노이즈, 더 많은 정보: 지시문 정제 기반의 강화 학습을 통한 추론
Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification
검증 가능한 보상을 사용한 강화 학습(RLVR)은 LLM의 추론 능력을 향상시켰지만, 제한된 탐색 예산으로 인해 비효율적인 탐색이 발생하여 복잡한 작업에서 낮은 샘플링 성공률과 불안정한 학습을 초래합니다. 우리는 많은 탐색 실패가 문제의 난이도 때문이 아니라, 간섭을 유발하는 소수의 프롬프트 토큰에서 비롯된다는 것을 발견했습니다. 이러한 통찰력을 바탕으로, 우리는 먼저 간섭 토큰을 식별하고 제거하여 프롬프트를 생성하는 Less Noise Sampling Framework (LENS)를 제안합니다. 그런 다음, 정제 과정에서 성공적인 결과를 원래의 노이즈가 많은 프롬프트에 전달하여 정책 최적화를 감독함으로써, 모델이 실제 환경에서 노이즈가 많은 프롬프트를 사용할 때 간섭을 무시하도록 학습할 수 있습니다. 실험 결과, LENS는 GRPO보다 훨씬 뛰어난 성능을 보였으며, 평균 3.88%의 성능 향상과 1.6배 이상의 속도 향상을 달성했습니다. 우리의 연구는 롤아웃 효율성을 향상시키는 데 있어 간섭 토큰을 제거하는 것이 얼마나 중요한지를 강조하며, RLVR 연구에 새로운 관점을 제시합니다.
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6$\times$ speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.