상상-후-계획: 월드 모델을 활용한 적응형 예측 기반 에이전트 학습
Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models
최근 월드 모델 기술의 발전은 환경 상태의 미래 동역학을 모델링하여 에이전트가 실제 환경에 접근하지 않고도 추론하고 행동할 수 있는 가능성을 보여주었습니다. 현재의 방법들은 주로 단일 단계 또는 고정된 시간 범위의 예측을 수행하며, 복잡한 작업 계획에 대한 잠재력을 충분히 활용하지 못합니다. 본 연구에서는 에이전트 학습을 위한 통합 프레임워크인 Imagine-then-Plan ( exttt{ITP})을 제안합니다. exttt{ITP}는 에이전트의 정책 모델이 학습된 월드 모델과 상호 작용하여 다단계의 "상상된" 경로를 생성합니다. 상상 범위는 작업 및 단계에 따라 달라질 수 있으므로, 최종 목표와 작업 진행 상황 간의 균형을 맞추는 새로운 적응형 예측 메커니즘을 도입했습니다. 결과적으로 생성된 상상된 경로는 달성된 진행 상황 및 잠재적인 충돌과 같은 미래 결과에 대한 풍부한 정보를 제공하며, 이러한 정보는 현재 관찰과 결합되어 부분적으로 extit{관찰 가능}하고 extit{상상 가능}한 마르코프 의사 결정 문제를 형성하여 정책 학습을 안내합니다. exttt{ITP}는 학습이 필요 없는 방식과 강화 학습 기반 방식 모두로 구현되었습니다. 대표적인 에이전트 벤치마크에 대한 광범위한 실험 결과, exttt{ITP}는 경쟁적인 기준 모델보다 훨씬 우수한 성능을 보였습니다. 추가적인 분석을 통해, 우리의 적응형 예측 메커니즘이 에이전트의 추론 능력을 크게 향상시키며, 더 광범위하고 복잡한 작업을 해결하는 데 중요한 통찰력을 제공한다는 것을 확인했습니다.
Recent advances in world models have shown promise for modeling future dynamics of environmental states, enabling agents to reason and act without accessing real environments. Current methods mainly perform single-step or fixed-horizon rollouts, leaving their potential for complex task planning under-exploited. We propose Imagine-then-Plan (\texttt{ITP}), a unified framework for agent learning via lookahead imagination, where an agent's policy model interacts with the learned world model, yielding multi-step ``imagined'' trajectories. Since the imagination horizon may vary by tasks and stages, we introduce a novel adaptive lookahead mechanism by trading off the ultimate goal and task progress. The resulting imagined trajectories provide rich signals about future consequences, such as achieved progress and potential conflicts, which are fused with current observations, formulating a partially \textit{observable} and \textit{imaginable} Markov decision process to guide policy learning. We instantiate \texttt{ITP} with both training-free and reinforcement-trained variants. Extensive experiments across representative agent benchmarks demonstrate that \texttt{ITP} significantly outperforms competitive baselines. Further analyses validate that our adaptive lookahead largely enhances agents' reasoning capability, providing valuable insights into addressing broader, complex tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.