장기 목표 지향 LLM 에이전트 성능 향상을 위한 하위 목표 기반 프레임워크
A Subgoal-driven Framework for Improving Long-Horizon LLM Agents
대규모 언어 모델(LLM) 기반 에이전트는 모바일 인터페이스, 운영 체제 및 웹 브라우저를 포함한 디지털 환경에서 강력한 자율 제어기로 부상했습니다. 예를 들어, 웹 탐색은 동적 콘텐츠를 처리하고 긴 일련의 작업을 수행해야 하므로 특히 어려운 과제입니다. 기존의 LLM 기반 에이전트는 장기적인 계획 수립에 있어 두 가지 주요 어려움을 겪습니다. 온라인 실행 중에는 새로운 정보가 입력됨에 따라 종종 목표를 잊어버리고, 명확하고 적응적인 최종 목표 달성 경로를 갖추지 못합니다. 이러한 문제는 강화 학습(RL) 미세 조정 과정에서 더욱 심화됩니다. 희소하고 지연된 보상은 에이전트가 어떤 행동이 성공으로 이어지는지 파악하기 어렵게 만들고, 결과적으로 에이전트는 확장된 작업에서 일관된 추론을 유지하기 어렵습니다. 이러한 과제에 대처하기 위해, 우리는 두 가지 주요 기여를 제시합니다. 첫째, 온라인 계획을 위한 고유 모델을 활용하여 하위 목표 분해를 통해 에이전트 프레임워크를 소개합니다. 둘째, 밀레스트온 기반의 밀도 높은 보상 신호를 사용하는 RL 훈련 프레임워크인 MiRA(Milestoning your Reinforcement Learning Enhanced Agent)를 제시합니다. 실시간 계획 메커니즘은 Gemini와 같은 고유 모델의 성공률(SR)을 WebArena-Lite 벤치마크에서 약 10% 절대적으로 향상시킵니다. 반면, MiRA를 오픈 소스 Gemma3-12B 모델에 적용하면 성공률이 6.4%에서 43.0%로 증가합니다. 이러한 성능은 GPT-4-Turbo (17.6%) 및 GPT-4o (13.9%)와 같은 고유 시스템, 그리고 이전 최고 성능의 오픈 모델인 WebRL (38.4%)을 능가합니다. 전반적으로, 우리의 연구 결과는 명시적인 추론 시간 계획과 밀레스트온 기반 보상을 결합하면 에이전트의 장기 목표 달성 능력을 크게 향상시킬 수 있으며, 이는 더욱 강력하고 범용적인 자율 시스템을 개발하는 데 기여할 수 있음을 보여줍니다.
Large language model (LLM)-based agents have emerged as powerful autonomous controllers for digital environments, including mobile interfaces, operating systems, and web browsers. Web navigation, for example, requires handling dynamic content and long sequences of actions, making it particularly challenging. Existing LLM-based agents struggle with long-horizon planning in two main ways. During online execution, they often lose track as new information arrives, lacking a clear and adaptive path toward the final goal. This issue is further exacerbated during reinforcement learning (RL) fine-tuning, where sparse and delayed rewards make it difficult for agents to identify which actions lead to success, preventing them from maintaining coherent reasoning over extended tasks. To address these challenges, we propose two contributions. First, we introduce an agent framework that leverages proprietary models for online planning through subgoal decomposition. Second, we present MiRA (Milestoning your Reinforcement Learning Enhanced Agent), an RL training framework that uses dense, milestone-based reward signals. The real-time planning mechanism improves proprietary models such as Gemini by approximately a 10% absolute increase in success rate (SR) on the WebArena-Lite benchmark. Meanwhile, applying MiRA to the open Gemma3-12B model increases its success rate from 6.4% to 43.0%. This performance surpasses proprietary systems such as GPT-4-Turbo (17.6%) and GPT-4o (13.9%), as well as the previous open-model state of the art, WebRL (38.4%). Overall, our findings demonstrate that combining explicit inference-time planning with milestone-based rewards significantly improves an agent's long-horizon capabilities, paving the way for more robust and general-purpose autonomous systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.