HiPER: 명시적인 보상 할당을 통한 계층적 강화 학습: 대규모 언어 모델 에이전트
HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents
대규모 언어 모델(LLM)을 활용하여 다단계 의사 결정을 수행하는 에이전트를 훈련하는 것은 여전히 어려운 과제이며, 특히 희소하고 지연된 보상을 받는 장기적인 작업에서 더욱 그렇습니다. 이러한 작업에서는 에이전트가 의미 있는 피드백을 받기 전에 일련의 동작을 수행해야 합니다. 기존의 대부분 강화 학습(RL) 방법은 LLM 에이전트를 단일 시간 척도에서 작동하는 평면 정책으로 모델링하며, 각 단계에서 하나의 동작을 선택합니다. 희소 보상 환경에서, 이러한 평면 정책은 명시적인 시간 추상화 없이 전체 경로에 걸쳐 보상을 전파해야 하며, 이는 종종 불안정한 최적화 및 비효율적인 보상 할당으로 이어집니다. 저희는 고수준 계획과 저수준 실행을 명시적으로 분리하는 새로운 계층적 계획-실행 강화 학습 프레임워크인 HiPER를 제안합니다. HiPER는 정책을 고수준 계획기로 분해하여 하위 목표를 제안하고, 이러한 하위 목표를 여러 동작 단계를 통해 실행하는 저수준 실행기로 구성됩니다. 이러한 구조에 맞춰 최적화를 수행하기 위해, 저희는 계층적 이점 추정(HAE)이라는 핵심 기술을 도입했습니다. HAE는 계획 및 실행 수준 모두에서 보상을 신중하게 할당합니다. 각 하위 목표의 실행에 대한 수익을 집계하고 두 수준 간의 업데이트를 조정함으로써, HAE는 편향되지 않은 기울기 추정치를 제공하며, 평면 일반화된 이점 추정에 비해 분산을 줄일 수 있음이 증명되었습니다. 실험적으로, HiPER는 어려운 인터랙티브 벤치마크에서 최첨단 성능을 달성했습니다. ALFWorld에서 97.4%의 성공률, WebShop에서 83.3%의 성공률을 기록했으며(기존 최적 방법 대비 각각 +6.6% 및 +8.3% 향상), 특히 여러 종속 하위 작업이 필요한 장기적인 작업에서 큰 성능 향상을 보였습니다. 이러한 결과는 다단계 LLM 에이전트의 확장 가능한 강화 학습 훈련을 위해 명시적인 계층적 분해의 중요성을 강조합니다.
Training LLMs as interactive agents for multi-turn decision-making remains challenging, particularly in long-horizon tasks with sparse and delayed rewards, where agents must execute extended sequences of actions before receiving meaningful feedback. Most existing reinforcement learning (RL) approaches model LLM agents as flat policies operating at a single time scale, selecting one action at each turn. In sparse-reward settings, such flat policies must propagate credit across the entire trajectory without explicit temporal abstraction, which often leads to unstable optimization and inefficient credit assignment. We propose HiPER, a novel Hierarchical Plan-Execute RL framework that explicitly separates high-level planning from low-level execution. HiPER factorizes the policy into a high-level planner that proposes subgoals and a low-level executor that carries them out over multiple action steps. To align optimization with this structure, we introduce a key technique called hierarchical advantage estimation (HAE), which carefully assigns credit at both the planning and execution levels. By aggregating returns over the execution of each subgoal and coordinating updates across the two levels, HAE provides an unbiased gradient estimator and provably reduces variance compared to flat generalized advantage estimation. Empirically, HiPER achieves state-of-the-art performance on challenging interactive benchmarks, reaching 97.4\% success on ALFWorld and 83.3\% on WebShop with Qwen2.5-7B-Instruct (+6.6\% and +8.3\% over the best prior method), with especially large gains on long-horizon tasks requiring multiple dependent subtasks. These results highlight the importance of explicit hierarchical decomposition for scalable RL training of multi-turn LLM agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.