RAPO: 검색 증강 정책 최적화를 통한 LLM 에이전트의 탐색 확장
RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization
에이전트 기반 강화 학습(Agentic RL)은 대규모 언어 모델(LLM) 기반 에이전트에서 놀라운 잠재력을 보여왔습니다. 이러한 연구들은 LLM 에이전트가 다단계, 도구 통합 추론을 통해 복잡한 작업을 수행할 수 있도록 지원합니다. 그러나 기존 에이전트 기반 강화 학습 방법의 근본적인 한계는 순수 온-폴리시 패러다임에 의존하여 탐색을 에이전트가 자체적으로 생성한 결과물로 제한하고, 추가적인 개선을 위한 새로운 추론 관점을 발견하는 것을 방해한다는 점입니다. 최근의 노력들은 탐색을 향상시키기 위해 보조 오프-폴리시 신호를 통합하지만, 일반적으로 트레이저리 레벨의 정책 추정을 위해 전체 오프-폴리시 트레이저리를 사용하며, 에이전트 롤아웃 내에서 필요한 미세한, 단계 레벨의 탐색적 동역학을 간과합니다. 본 논문에서는 에이전트 기반 강화 학습에서의 탐색을 재검토하고, 훈련 중에 탐색을 명시적으로 확장하는 새로운 강화 학습 프레임워크인 검색 증강 정책 최적화(RAPO)를 제안합니다. 이를 달성하기 위해, 에이전트 기반 강화 학습 훈련 프로세스를 두 단계로 분해합니다: (i) 하이브리드 정책 에이전트 롤아웃, 그리고 (ii) 검색 인식 정책 최적화. 구체적으로, 우리는 에이전트가 검색된 오프-폴리시 단계 레벨의 트레이저리를 지속적으로 추론할 수 있도록 하는 하이브리드 정책 에이전트 롤아웃 전략을 제안합니다. 이는 에이전트의 추론 수용 범위를 동적으로 확장하여, 외부 행동에 기반한 더 넓은 탐색을 가능하게 합니다. 그 후, 정책 그래디언트 추정을 검색 보상 및 중요도 형성과 함께 조정하여 훈련을 안정화하고, 검색을 통해 얻을 수 있는 탐색을 우선시하는 검색 인식 정책 최적화 메커니즘을 소개합니다. 광범위한 실험 결과, RAPO는 세 가지 에이전트 추론 작업에 걸쳐 14개의 데이터 세트에서 평균 5.0%의 성능 향상을 달성했으며, 훈련 효율성은 1.2배 향상되었습니다.
Agentic Reinforcement Learning (Agentic RL) has shown remarkable potential in large language model-based (LLM) agents. These works can empower LLM agents to tackle complex tasks via multi-step, tool-integrated reasoning. However, an inherent limitation of existing Agentic RL methods is their reliance on a pure on-policy paradigm for exploration, restricting exploration to the agent's self-generated outputs and preventing the discovery of new reasoning perspectives for further improvement. While recent efforts incorporate auxiliary off-policy signals to enhance exploration, they typically utilize full off-policy trajectories for trajectory-level policy estimation, overlooking the necessity for the fine-grained, step-level exploratory dynamics within agentic rollout. In this paper, we revisit exploration in Agentic RL and propose Retrieval-Augmented Policy Optimization (RAPO), a novel RL framework that introduces retrieval to explicitly expand exploration during training. To achieve this, we decompose the Agentic RL training process into two phases: (i) Hybrid-policy Agentic Rollout, and (ii) Retrieval-aware Policy Optimization. Specifically, we propose a Hybrid-policy Agentic Rollout strategy, which allows the agents to continuously reason over the retrieved off-policy step-level traces. It dynamically extends the reasoning receptive field of agents, enabling broader exploration conditioned on external behaviors. Subsequently, we introduce the Retrieval-aware Policy Optimization mechanism, which calibrates the policy gradient estimation with retrieval reward and importance shaping, stabilizing training and prioritizing retrieval-illuminating exploration. Extensive experiments show that RAPO achieves an +5.0% average gain on fourteen datasets across three agentic reasoning tasks, while delivering 1.2x faster training efficiency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.