보고 기억하기: 웹 탐색을 위한 다중 모드 에이전트
See and Remember: A Multimodal Agent for Web Traversal
자율적인 웹 탐색은 에이전트가 복잡한 시각적 환경을 인식하고 장기적인 문맥을 유지해야 하지만, 현재의 대규모 언어 모델(LLM) 기반 에이전트는 종종 공간 감각 상실과 탐색 루프에 어려움을 겪습니다. 본 논문에서는 일반적으로 적용 가능한 V-GEMS(시각적 정보 연결 및 명시적 메모리 시스템)라는 강력한 다중 모드 에이전트 아키텍처를 제안합니다. V-GEMS는 정확하고 안정적인 웹 탐색을 위해 설계되었습니다. 저희 에이전트는 모호한 인터랙티브 요소를 해결하기 위해 시각적 정보 연결을 통합하고, 상태 추적 기능이 있는 명시적 메모리 스택을 도입합니다. 이러한 이중 메커니즘을 통해 에이전트는 탐색 경로의 구조화된 지도를 유지하여 정확한 후진 기능을 가능하게 하고, 심층 탐색 작업에서 발생하는 순환 오류를 방지합니다. 또한, 적응성을 엄격하게 평가하기 위한 업데이트 가능한 동적 벤치마크를 소개합니다. 실험 결과, V-GEMS는 WebWalker 기준 모델보다 28.7%의 상당한 성능 향상을 보여주었습니다. 코드는 https://github.com/Vaultttttttttttt/V-GEMS 에서 확인할 수 있습니다.
Autonomous web navigation requires agents to perceive complex visual environments and maintain long-term context, yet current Large Language Model (LLM) based agents often struggle with spatial disorientation and navigation loops. In this paper, we propose generally applicable V-GEMS(Visual Grounding and Explicit Memory System), a robust multimodal agent architecture designed for precise and resilient web traversal. Our agent integrates visual grounding to resolve ambiguous interactive elements and introduces an explicit memory stack with state tracking. This dual mechanism allows the agent to maintain a structured map of its traversal path, enabling valid backtracking and preventing cyclical failures in deep navigation tasks. We also introduce an updatable dynamic benchmark to rigorously evaluate adaptability. Experiments show V-GEMS significantly dominates the WebWalker baseline, achieving a substantial 28.7% performance gain. Code is available at https://github.com/Vaultttttttttttt/V-GEMS.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.