HiMAC: 계층적 매크로-마이크로 학습을 통한 장기 계획 LLM 에이전트
HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents
최근 대규모 언어 모델(LLM) 에이전트는 상호 작용적인 의사 결정 능력에서 뛰어난 성능을 보여주었지만, 여전히 체계적인 계획과 안정적인 실행이 필요한 장기적인 작업에서는 근본적인 한계를 가지고 있습니다. 기존 방식은 주로 고수준 추론과 저수준 행동이 단일 토큰 시퀀스 내에서 생성되는 평탄한 자기 회귀 정책에 의존하며, 이는 비효율적인 탐색과 장기간의 경로에서 심각한 오류 전파를 야기합니다. 본 연구에서는 장기적인 의사 결정을 매크로 수준의 계획과 마이크로 수준의 실행으로 명시적으로 분해하는 계층적 에이전트 강화 학습 프레임워크인 HiMAC을 제안합니다. HiMAC은 추론을 구조화된 청사진 생성 프로세스 및 목표 지향적인 행동 실행으로 모델링하여, LLM 기반 에이전트 내에서 강력한 장기 계획을 가능하게 합니다. 이 계층 구조를 효율적으로 훈련하기 위해, 그룹 기반 강화 학습을 확장하여 계층적 상대적 이점 추정을 통한 이중 구조에 적용하는 비평가 기반 계층적 정책 최적화 패러다임을 도입합니다. 또한, 계획자 탐색과 실행자 적응을 번갈아 수행하는 반복적인 공동 진화 훈련 전략을 제안하여, 계층적 학습에 내재된 비정상성을 완화합니다. ALFWorld, WebShop 및 Sokoban에 대한 광범위한 실험 결과, HiMAC은 강력한 프롬프트 및 강화 학습 기준 성능을 지속적으로 능가하며, 텍스트 기반 및 시각적으로 기반 환경 모두에서 최첨단 성능과 현저히 향상된 샘플 효율성을 달성했습니다. 우리의 결과는 모델 크기를 단순하게 늘리는 것보다 구조화된 계층 구조를 도입하는 것이 강력한 장기 에이전트 지능을 가능하게 하는 핵심 요소임을 보여줍니다.
Large language model (LLM) agents have recently demonstrated strong capabilities in interactive decision-making, yet they remain fundamentally limited in long-horizon tasks that require structured planning and reliable execution. Existing approaches predominantly rely on flat autoregressive policies, where high-level reasoning and low-level actions are generated within a single token sequence, leading to inefficient exploration and severe error propagation over extended trajectories. In this work, we propose HiMAC, a hierarchical agentic RL framework that explicitly decomposes long-horizon decision-making into macro-level planning and micro-level execution. HiMAC models reasoning as a structured blueprint generation process followed by goal-conditioned action execution, enabling robust long-horizon planning within LLM-based agents. To train this hierarchy efficiently, we introduce a critic-free hierarchical policy optimization paradigm that extends group-based reinforcement learning to bi-level structures through hierarchical relative advantage estimation. Furthermore, we propose an iterative co-evolution training strategy that alternates between planner exploration and executor adaptation, mitigating the non-stationarity inherent in hierarchical learning. Extensive experiments on ALFWorld, WebShop, and Sokoban demonstrate that HiMAC consistently outperforms strong prompting and reinforcement learning baselines, achieving state-of-the-art performance and substantially improved sample efficiency across both text-based and visually grounded environments. Our results show that introducing structured hierarchy, rather than increasing model scale alone, is a key factor for enabling robust long-horizon agentic intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.