장기적인 LLM 에이전트를 위한 회고적 보상 할당
Hindsight Credit Assignment for Long-Horizon LLM Agents
대규모 언어 모델(LLM) 에이전트는 종종 희소한 보상으로 인해 장기적인, 다단계 작업에서 심각한 보상 할당 문제를 겪습니다. 기존의 가치 기반 방법인 Group Relative Policy Optimization (GRPO)은 부정확한 단계별 Q-값 추정 및 중간 상태에 대한 잘못된 가치 기준이라는 두 가지 근본적인 문제점을 가지고 있습니다. 이러한 한계를 해결하기 위해, LLM 에이전트에 회고적 보상 할당을 통합한 최초의 프레임워크인 HCAPO를 소개합니다. HCAPO는 LLM 자체를 사후 비평기로 활용하여 회고적 추론을 통해 단계별 Q-값을 개선합니다. 또한, HCAPO의 다중 스케일 장점 메커니즘은 중요한 의사 결정 상태에서 부정확한 가치 기준을 효과적으로 보완합니다. WebShop 및 ALFWorld을 포함한 세 가지 어려운 벤치마크를 통해 평가한 결과, HCAPO는 최첨단 강화 학습 방법보다 일관되게 우수한 성능을 보였습니다. 특히, HCAPO는 Qwen2.5-7B-Instruct 모델을 사용하여 WebShop에서 7.7%, ALFWorld에서 13.8%의 성공률 향상을 달성했습니다. 이러한 결과는 HCAPO가 탐색 효율성을 크게 향상시키고, 간결한 의사 결정을 촉진하며, 복잡하고 장기적인 작업에서 확장성을 보장한다는 것을 나타냅니다.
Large Language Model (LLM) agents often face significant credit assignment challenges in long-horizon, multi-step tasks due to sparse rewards. Existing value-free methods, such as Group Relative Policy Optimization (GRPO), encounter two fundamental bottlenecks: inaccurate step-level Q-value estimation and misaligned value baselines for intermediate states. To address these limitations, we introduce HCAPO, the first framework to integrate hindsight credit assignment into LLM agents. HCAPO leverages the LLM itself as a post-hoc critic to refine step-level Q-values through hindsight reasoning. Furthermore, HCAPO's multi-scale advantage mechanism effectively supplements the inaccurate value baselines at critical decision states. Evaluations across three challenging benchmarks, including WebShop and ALFWorld, demonstrate that HCAPO consistently outperforms state-of-the-art RL methods. Notably, HCAPO achieves a 7.7% improvement in success rate on WebShop and a 13.8% on ALFWorld over GRPO using the Qwen2.5-7B-Instruct model. These results indicate that HCAPO significantly enhances exploration efficiency, promotes concise decision-making, and ensures scalability in complex, long-horizon tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.