2602.13691v1 Feb 14, 2026 cs.AI

PhGPO: 장기 도구 계획을 위한 페로몬 유도 정책 최적화

PhGPO: Pheromone-Guided Policy Optimization for Long-Horizon Tool Planning

Yu Li
Yu Li
Citations: 310
h-index: 5
Guangfeng Cai
Guangfeng Cai
Citations: 0
h-index: 0
Shengtian Yang
Shengtian Yang
Citations: 7
h-index: 2
Hanjun Luo
Hanjun Luo
Citations: 118
h-index: 3
Shuo Han
Shuo Han
Citations: 0
h-index: 0
Xu He
Xu He
Citations: 123
h-index: 4
Dong Li
Dong Li
Citations: 1
h-index: 1
Lei Feng
Lei Feng
Citations: 16
h-index: 2

최근 대규모 언어 모델(LLM) 에이전트의 발전은 도구 사용을 통해 복잡한 작업을 수행하는 데 있어 강력한 능력을 입증했습니다. 그러나 장기 다단계 도구 계획은 탐색 공간이 조합 폭발을 겪기 때문에 어렵습니다. 이러한 시나리오에서는 올바른 도구 사용 경로를 찾더라도, 이는 대개 현재 훈련에 대한 즉각적인 보상으로만 간주되어 후속 훈련에 재사용 가능한 정보를 제공하지 못합니다. 본 논문에서는 과거의 성공적인 궤적들이 전체 훈련 과정에서 활용될 수 있는 재사용 가능한 도구 전이 패턴을 포함하고 있다고 주장합니다. 과거의 성공적인 경로가 페로몬으로 반영되는 개미 군집 최적화에서 영감을 받아, 우리는 과거 궤적에서 궤적 기반 전이 패턴(즉, 페로몬)을 학습한 다음 학습된 페로몬을 사용하여 정책 최적화를 유도하는 페로몬 유도 정책 최적화(PhGPO)를 제안합니다. 이렇게 학습된 페로몬은 정책 최적화를 과거에 성공적이었던 도구 전이 방향으로 이끄는 명시적이고 재사용 가능한 지침을 제공하여, 결과적으로 장기 도구 계획 성능을 향상시킵니다. 포괄적인 실험 결과는 우리가 제안한 PhGPO의 효과를 입증합니다.

Original Abstract

Recent advancements in Large Language Model (LLM) agents have demonstrated strong capabilities in executing complex tasks through tool use. However, long-horizon multi-step tool planning is challenging, because the exploration space suffers from a combinatorial explosion. In this scenario, even when a correct tool-use path is found, it is usually considered an immediate reward for current training, which would not provide any reusable information for subsequent training. In this paper, we argue that historically successful trajectories contain reusable tool-transition patterns, which can be leveraged throughout the whole training process. Inspired by ant colony optimization where historically successful paths can be reflected by the pheromone, we propose Pheromone-Guided Policy Optimization (PhGPO), which learns a trajectory-based transition pattern (i.e., pheromone) from historical trajectories and then uses the learned pheromone to guide policy optimization. This learned pheromone provides explicit and reusable guidance that steers policy optimization toward historically successful tool transitions, thereby improving long-horizon tool planning. Comprehensive experimental results demonstrate the effectiveness of our proposed PhGPO.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!