장기적인 에이전트 기반 작업에 대한 그룹 정책 최적화 방법
Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks
그룹 기반 강화 학습(RL), 예를 들어 GRPO는 대규모 언어 모델의 장기적인 에이전트 기반 작업 능력을 향상시켰습니다. 보다 세밀한 정책 업데이트를 가능하게 하기 위해 최근 연구는 점진적인 그룹 기반 정책 최적화로 점점 더 많이 이동하고 있으며, 이는 롤아웃 트래jectory의 각 단계를 독립적으로 처리하면서 메모리 모듈을 사용하여 과거 컨텍스트를 유지합니다. 그러나 우리는 점진적인 상대적 이점을 추정하는 데 중요한 문제인 컨텍스트 불일치 문제를 발견했습니다. 즉, 동일한 그룹 내의 단계는 과거 컨텍스트가 다를 수 있습니다. 경험적으로, 이 문제는 심각하게 편향된 이점 추정으로 이어져 정책 최적화를 크게 저하시킨다는 것을 밝혀냈습니다. 이 문제를 해결하기 위해, 본 논문에서는 장기적인 에이전트 기반 작업에 대한 계층적 그룹 정책 최적화(HGPO) 방법을 제안합니다. 구체적으로, HGPO는 롤아웃 트래jectory 그룹 내의 각 단계를 과거 컨텍스트의 일관성에 따라 여러 계층적 그룹에 할당합니다. 그런 다음, HGPO는 각 단계에 대해 각 그룹 내에서 서로 다른 이점을 계산하고 적응형 가중치 체계를 사용하여 이를 집계합니다. 이와 같이, HGPO는 추가 모델이나 롤아웃 없이 점진적인 이점 추정에서 유리한 편향-분산 균형을 달성할 수 있습니다. Qwen2.5-1.5B-Instruct 및 Qwen2.5-7B-Instruct을 사용한 ALFWorld 및 WebShop이라는 두 가지 어려운 에이전트 기반 작업에 대한 평가 결과, 동일한 계산 제약 조건 하에서 HGPO가 기존 에이전트 기반 RL 방법보다 훨씬 우수한 성능을 보였습니다. 코드는 https://github.com/langfengQ/verl-agent/tree/master/recipe/hgpo 에서 확인할 수 있습니다.
Group-based reinforcement learning (RL), such as GRPO, has advanced the capabilities of large language models on long-horizon agentic tasks. To enable more fine-grained policy updates, recent research has increasingly shifted toward stepwise group-based policy optimization, which treats each step in a rollout trajectory independently while using a memory module to retain historical context. However, we find a key issue in estimating stepwise relative advantages, namely context inconsistency, where steps within the same group may differ in their historical contexts. Empirically, we reveal that this issue can lead to severely biased advantage estimation, thereby degrading policy optimization significantly. To address the issue, in this paper, we propose Hierarchy-of-Groups Policy Optimization (HGPO) for long-horizon agentic tasks. Specifically, within a group of rollout trajectories, HGPO assigns each step to multiple hierarchical groups according to the consistency of historical contexts. Then, for each step, HGPO computes distinct advantages within each group and aggregates them with an adaptive weighting scheme. In this way, HGPO can achieve a favorable bias-variance trade-off in stepwise advantage estimation, without extra models or rollouts. Evaluations on two challenging agentic tasks, ALFWorld and WebShop with Qwen2.5-1.5B-Instruct and Qwen2.5-7B-Instruct, show that HGPO significantly outperforms existing agentic RL methods under the same computational constraints. Code is available at https://github.com/langfengQ/verl-agent/tree/master/recipe/hgpo.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.