2601.21244v2 Jan 29, 2026 cs.LG

더 적은 노이즈, 더 많은 정보: 지시문 정제 기반의 강화 학습을 통한 추론

Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

Yankai Lin
Yankai Lin
Citations: 169
h-index: 5
Tianyi Hu
Tianyi Hu
Citations: 1
h-index: 1
Yiju Guo
Yiju Guo
Citations: 129
h-index: 4
Zexu Sun
Zexu Sun
Citations: 20
h-index: 3

검증 가능한 보상을 사용한 강화 학습(RLVR)은 LLM의 추론 능력을 향상시켰지만, 제한된 탐색 예산으로 인해 비효율적인 탐색이 발생하여 복잡한 작업에서 낮은 샘플링 성공률과 불안정한 학습을 초래합니다. 우리는 많은 탐색 실패가 문제의 난이도 때문이 아니라, 간섭을 유발하는 소수의 프롬프트 토큰에서 비롯된다는 것을 발견했습니다. 이러한 통찰력을 바탕으로, 우리는 먼저 간섭 토큰을 식별하고 제거하여 프롬프트를 생성하는 Less Noise Sampling Framework (LENS)를 제안합니다. 그런 다음, 정제 과정에서 성공적인 결과를 원래의 노이즈가 많은 프롬프트에 전달하여 정책 최적화를 감독함으로써, 모델이 실제 환경에서 노이즈가 많은 프롬프트를 사용할 때 간섭을 무시하도록 학습할 수 있습니다. 실험 결과, LENS는 GRPO보다 훨씬 뛰어난 성능을 보였으며, 평균 3.88%의 성능 향상과 1.6배 이상의 속도 향상을 달성했습니다. 우리의 연구는 롤아웃 효율성을 향상시키는 데 있어 간섭 토큰을 제거하는 것이 얼마나 중요한지를 강조하며, RLVR 연구에 새로운 관점을 제시합니다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6$\times$ speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!