파라미터 공간 노이즈를 이용한 탐색 학습: 검증 가능한 보상을 활용한 강화 학습에서의 파라미터 공간 노이즈 심층 분석
Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards
검증 가능한 보상을 활용한 강화 학습(RLVR)은 LLM의 추론 능력을 향상시키지만, 증가하는 연구 결과는 탐색의 한계를 보여줍니다. RLVR은 종종 기존의 해결 전략을 재구성하는 경향이 있으며, 새로운 전략을 발견하지 못하여 대규모 샘플링 예산(예: pass-at-256) 하에서의 성능 향상을 제한합니다. 우리는 이 한계를 PSN-RLVR을 통해 해결하고자 합니다. PSN-RLVR은 정책 파라미터를 롤아웃 생성 전에 변경하여 시간적으로 일관되고, 전체 경로 수준의 탐색을 유도하며, 이는 행동 공간 노이즈보다 장기적인 연쇄적 사고의 일관성을 더 잘 유지합니다. 결과적으로 발생하는 샘플링-업데이트 불일치를 완화하기 위해, 우리는 잘린 중요 샘플링(TIS)을 적용합니다. 비용이 많이 드는 KL 기반의 적응적 노이즈 제어를 피하기 위해, 우리는 의미적 다양성과 정규화된 자기 확신을 결합한 경량화된 대리 모델에 의해 구동되는, 계산 효율적인 실시간 적응적 노이즈 스케줄러를 제안합니다. 널리 사용되는 RLVR 방법인 GRPO에 PSN을 적용한 PSN-GRPO는 다양한 수학적 추론 벤치마크 및 모델 계열에서 효과적인 추론 능력의 경계를 지속적으로 확장하며, 대규모 샘플링 예산 하에서 더 높은 pass-at-k 성능을 달성하고, 기존의 탐색 지향적인 RLVR 방법(예: Pass-at-k 스타일 학습)보다 우수한 성능을 보입니다. 또한 PSN-GRPO는 기존 방식과 독립적이므로 추가적인 성능 향상을 위한 결합이 가능합니다.
Reinforcement Learning with Verifiable Rewards (RLVR) improves LLM reasoning, yet growing evidence indicates an exploration ceiling: it often reweights existing solution traces rather than discovering new strategies, limiting gains under large sampling budgets (e.g., pass-at-256). We address this limitation with PSN-RLVR, which perturbs policy parameters before rollout generation to induce temporally consistent, trajectory-level exploration that better preserves long-horizon chain-of-thought coherence than action-space noise. To mitigate the resulting sampling-update mismatch, we incorporate truncated importance sampling (TIS). To avoid expensive KL-based adaptive noise control, we propose a computationally efficient real-time adaptive noise scheduler driven by a lightweight surrogate that combines semantic diversity with normalized self-certainty. Instantiated on GRPO, a widely used RLVR method, PSN-GRPO consistently expands the effective reasoning capability boundary across multiple mathematical reasoning benchmarks and model families, yielding higher pass-at-k under large sampling budgets and outperforming prior exploration-oriented RLVR methods (e.g., Pass-at-k-style training) while remaining orthogonal and thus composable for additional gains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.