2603.03078v1 Mar 03, 2026 cs.AI

RAPO: 검색 증강 정책 최적화를 통한 LLM 에이전트의 탐색 확장

RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization

Xi Chen
Xi Chen
Citations: 7,422
h-index: 5
Yun Xiong
Yun Xiong
Citations: 664
h-index: 7
Zian Jia
Zian Jia
Citations: 95
h-index: 2
Renhong Huang
Renhong Huang
Citations: 58
h-index: 3
Jiarong Xu
Jiarong Xu
Citations: 10
h-index: 3
Jiawei Zhang
Jiawei Zhang
Citations: 64
h-index: 5
Siwei Zhang
Siwei Zhang
Citations: 72
h-index: 5

에이전트 기반 강화 학습(Agentic RL)은 대규모 언어 모델(LLM) 기반 에이전트에서 놀라운 잠재력을 보여왔습니다. 이러한 연구들은 LLM 에이전트가 다단계, 도구 통합 추론을 통해 복잡한 작업을 수행할 수 있도록 지원합니다. 그러나 기존 에이전트 기반 강화 학습 방법의 근본적인 한계는 순수 온-폴리시 패러다임에 의존하여 탐색을 에이전트가 자체적으로 생성한 결과물로 제한하고, 추가적인 개선을 위한 새로운 추론 관점을 발견하는 것을 방해한다는 점입니다. 최근의 노력들은 탐색을 향상시키기 위해 보조 오프-폴리시 신호를 통합하지만, 일반적으로 트레이저리 레벨의 정책 추정을 위해 전체 오프-폴리시 트레이저리를 사용하며, 에이전트 롤아웃 내에서 필요한 미세한, 단계 레벨의 탐색적 동역학을 간과합니다. 본 논문에서는 에이전트 기반 강화 학습에서의 탐색을 재검토하고, 훈련 중에 탐색을 명시적으로 확장하는 새로운 강화 학습 프레임워크인 검색 증강 정책 최적화(RAPO)를 제안합니다. 이를 달성하기 위해, 에이전트 기반 강화 학습 훈련 프로세스를 두 단계로 분해합니다: (i) 하이브리드 정책 에이전트 롤아웃, 그리고 (ii) 검색 인식 정책 최적화. 구체적으로, 우리는 에이전트가 검색된 오프-폴리시 단계 레벨의 트레이저리를 지속적으로 추론할 수 있도록 하는 하이브리드 정책 에이전트 롤아웃 전략을 제안합니다. 이는 에이전트의 추론 수용 범위를 동적으로 확장하여, 외부 행동에 기반한 더 넓은 탐색을 가능하게 합니다. 그 후, 정책 그래디언트 추정을 검색 보상 및 중요도 형성과 함께 조정하여 훈련을 안정화하고, 검색을 통해 얻을 수 있는 탐색을 우선시하는 검색 인식 정책 최적화 메커니즘을 소개합니다. 광범위한 실험 결과, RAPO는 세 가지 에이전트 추론 작업에 걸쳐 14개의 데이터 세트에서 평균 5.0%의 성능 향상을 달성했으며, 훈련 효율성은 1.2배 향상되었습니다.

Original Abstract

Agentic Reinforcement Learning (Agentic RL) has shown remarkable potential in large language model-based (LLM) agents. These works can empower LLM agents to tackle complex tasks via multi-step, tool-integrated reasoning. However, an inherent limitation of existing Agentic RL methods is their reliance on a pure on-policy paradigm for exploration, restricting exploration to the agent's self-generated outputs and preventing the discovery of new reasoning perspectives for further improvement. While recent efforts incorporate auxiliary off-policy signals to enhance exploration, they typically utilize full off-policy trajectories for trajectory-level policy estimation, overlooking the necessity for the fine-grained, step-level exploratory dynamics within agentic rollout. In this paper, we revisit exploration in Agentic RL and propose Retrieval-Augmented Policy Optimization (RAPO), a novel RL framework that introduces retrieval to explicitly expand exploration during training. To achieve this, we decompose the Agentic RL training process into two phases: (i) Hybrid-policy Agentic Rollout, and (ii) Retrieval-aware Policy Optimization. Specifically, we propose a Hybrid-policy Agentic Rollout strategy, which allows the agents to continuously reason over the retrieved off-policy step-level traces. It dynamically extends the reasoning receptive field of agents, enabling broader exploration conditioned on external behaviors. Subsequently, we introduce the Retrieval-aware Policy Optimization mechanism, which calibrates the policy gradient estimation with retrieval reward and importance shaping, stabilizing training and prioritizing retrieval-illuminating exploration. Extensive experiments show that RAPO achieves an +5.0% average gain on fourteen datasets across three agentic reasoning tasks, while delivering 1.2x faster training efficiency.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!