Plan-MCTS: 웹 탐색에서 행동 활용을 위한 계획 탐색
Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation
대규모 언어 모델(LLM)은 자율 에이전트가 복잡한 웹 탐색 작업을 처리할 수 있도록 역량을 강화했습니다. 최근 연구들은 장기 추론을 향상시키기 위해 트리 탐색을 통합하고 있지만, 이를 웹 탐색에 적용하는 것은 두 가지 중요한 문제, 즉 비효율적인 탐색을 초래하는 희소한 유효 경로와 정확한 상태 인식을 저해하는 잡음 섞인 문맥에 직면합니다. 이를 해결하기 위해, 우리는 탐색의 대상을 의미론적 계획 공간(Plan Space)으로 전환하여 웹 탐색을 재구성하는 프레임워크인 Plan-MCTS를 제안합니다. 이 프레임워크는 전략적 계획과 실행 그라운딩(execution grounding)을 분리함으로써, 희소한 행동 공간을 밀집 계획 트리(Dense Plan Tree)로 변환하여 효율적인 탐색을 돕고, 잡음 섞인 문맥을 추상화된 의미론적 이력(Abstracted Semantic History)으로 정제하여 정확한 상태 인식을 가능하게 합니다. 효율성과 견고성을 보장하기 위해 Plan-MCTS는 물리적 실행 가능성과 전략적 정렬을 엄격하게 검증하는 이중 게이팅 보상(Dual-Gating Reward)과 실패한 하위 계획을 온-폴리시(on-policy)로 복구하는 구조적 정제(Structural Refinement) 기법을 포함합니다. WebArena에서의 광범위한 실험 결과, Plan-MCTS는 더 높은 작업 효과성과 탐색 효율성으로 기존 접근 방식들을 능가하며 최고 수준의 성능(SOTA)을 달성함을 입증했습니다.
Large Language Models (LLMs) have empowered autonomous agents to handle complex web navigation tasks. While recent studies integrate tree search to enhance long-horizon reasoning, applying these algorithms in web navigation faces two critical challenges: sparse valid paths that lead to inefficient exploration, and a noisy context that dilutes accurate state perception. To address this, we introduce Plan-MCTS, a framework that reformulates web navigation by shifting exploration to a semantic Plan Space. By decoupling strategic planning from execution grounding, it transforms sparse action space into a Dense Plan Tree for efficient exploration, and distills noisy contexts into an Abstracted Semantic History for precise state awareness. To ensure efficiency and robustness, Plan-MCTS incorporates a Dual-Gating Reward to strictly validate both physical executability and strategic alignment and Structural Refinement for on-policy repair of failed subplans. Extensive experiments on WebArena demonstrate that Plan-MCTS achieves state-of-the-art performance, surpassing current approaches with higher task effectiveness and search efficiency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.