무의미한 정보도 도움이 된다: 프롬프트 공간의 작은 변화가 추론 탐색을 확장한다
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration
검증 가능한 보상을 활용한 강화 학습, 특히 그룹 상대 정책 최적화(GRPO)는 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시켰습니다. 하지만 복잡한 작업에서 GRPO는 종종 '영 이점 문제'를 겪습니다. 즉, 특정 질문에 대해 샘플링된 모든 결과가 실패할 경우, 상대적인 이점은 0으로 붕괴되어 모델은 이러한 질문에 대한 효과적인 학습 신호를 잃게 되며, 이는 학습 데이터와 계산 자원의 낭비를 초래합니다. 이러한 문제를 해결하기 위해 단순히 샘플링 횟수를 늘리는 방법이 일반적이지만, 고정된 샘플링 정책은 추론 탐색을 제한하여 성공률을 낮춥니다. 본 논문에서는 이러한 탐색의 병목 현상을 해결하기 위한 간단하면서도 효과적인 학습 프레임워크인 Lorem Perturbation for Exploration (LoPE)를 제안합니다. 우리는 작업과 관련 없는 프롬프트 공간의 작은 변화가 모델의 출력 분포를 충분히 이동시켜 어려운 질문에 대한 새로운 추론 경로를 열 수 있다고 가정합니다. 구체적으로, LoPE는 프롬프트를 재샘플링하기 전에 Lorem Ipsum 어휘(의미 없는 가짜 라틴어 텍스트)로 무작위로 조합된 시퀀스를 프롬프트에 추가합니다. 1.7B, 4B 및 7B 모델에 대한 실험 결과, LoPE가 원래 프롬프트를 사용한 재샘플링보다 훨씬 우수한 성능을 보였습니다. 추가 분석 결과, 낮은 퍼플렉시티를 가진 다른 라틴어 기반의 무작위 시퀀스도 효과적인 변수로 작용할 수 있음을 확인했습니다. 본 연구는 LoPE가 LLM 강화 학습에서 탐색 범위를 넓히는 강력한 기준점이 될 수 있음을 보여줍니다.
Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, in complex tasks, GRPO frequently suffers from the ``zero-advantage problem'': when all sampled rollouts for a query fail, the relative advantage collapses to zero. Consequently, the model loses effective training signals for these questions, wasting the training data and computational budget. While simply increasing the sampling budget for these questions is a common remedy, the static sampling policy inherently constrains reasoning exploration, limiting the success rate. In this paper, we propose Lorem Perturbation for Exploration (LoPE), a simple yet effective training framework to break this exploration bottleneck. We posit that task-irrelevant prompt-space perturbations can shift the model's output distribution enough to unlock orthogonal reasoning pathways for hard questions. Specifically, LoPE prepends sequences stochastically assembled from Lorem Ipsum vocabulary (a pseudo-Latin placeholder text) to the prompts before resampling. Experiments across 1.7B, 4B, and 7B models demonstrate that LoPE significantly outperforms resampling with the original prompts. Further analysis reveals that other Latin-based random sequences with low perplexity are also effective perturbations. Our results establish LoPE as a strong baseline for broadening exploration in LLM reinforcement learning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.