SpotAgent: 에이전트 추론을 통한 대규모 비전-언어 모델의 시각적 지리 위치 추정 그라운딩
SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning
대규모 비전-언어 모델(LVLM)은 지리 위치 추정 분야에서 강력한 추론 능력을 입증했지만, 시각적 단서가 희박하거나 롱테일 분포를 보이고 매우 모호한 실제 시나리오에서는 여전히 어려움을 겪고 있다. 내부 지식에만 국한된 기존의 접근 방식들은 종종 검증 가능한 결과를 제공하지 못하며, 혼동을 주는 증거에 직면했을 때 확신에 차 있으나 근거가 없는(ungrounded) 예측을 내놓기도 한다. 이러한 문제를 해결하기 위해 우리는 지리 위치 추정을 에이전트 추론 과정으로 공식화한 프레임워크인 SpotAgent를 제안한다. 이 프레임워크는 전문가 수준의 추론을 활용하여 시각적 해석과 도구 지원 검증 간의 시너지를 창출한다. SpotAgent는 ReAct 도식을 통해 웹 검색이나 지도와 같은 외부 도구를 활용하여 시각적 단서를 능동적으로 탐색하고 검증한다. 우리는 3단계 사후 학습(post-training) 파이프라인을 도입하는데, 이는 기본적인 정렬을 위한 지도 미세 조정(SFT) 단계로 시작하여, 도구 호출 전문성을 주입하기 위해 멀티 에이전트 프레임워크를 통해 합성된 고품질 궤적을 활용하는 에이전트 콜드 스타트(Agentic Cold Start) 단계로 이어진다. 그 후, 모델의 추론 능력은 강화 학습을 통해 정교화된다. 또한 우리는 공간적 난이도에 기반하여 학습 가능한 샘플의 우선순위를 정함으로써 강화 학습 단계의 효율성을 높이는 '공간 인식 동적 필터링(Spatially-Aware Dynamic Filtering)' 전략을 제안한다. 표준 벤치마크에 대한 광범위한 실험 결과, SpotAgent는 환각 현상을 효과적으로 완화하는 동시에 정밀하고 검증 가능한 지리 위치 추정 결과를 제공하여 최고 수준(SOTA)의 성능을 달성함을 입증하였다.
Large Vision-Language Models (LVLMs) have demonstrated strong reasoning capabilities in geo-localization, yet they often struggle in real-world scenarios where visual cues are sparse, long-tailed, and highly ambiguous. Previous approaches, bound by internal knowledge, often fail to provide verifiable results, yielding confident but ungrounded predictions when faced with confounded evidence. To address these challenges, we propose SpotAgent, a framework that formalizes geo-localization into an agentic reasoning process that leverages expert-level reasoning to synergize visual interpretation with tool-assisted verification. SpotAgent actively explores and verifies visual cues by leveraging external tools (e.g., web search, maps) through a ReAct diagram. We introduce a 3-stage post-training pipeline starting with a Supervised Fine-Tuning (SFT) stage for basic alignment, followed by an Agentic Cold Start phase utilizing high-quality trajectories synthesized via a Multi-Agent framework, aiming to instill tool-calling expertise. Subsequently, the model's reasoning capabilities are refined through Reinforcement Learning. We propose a Spatially-Aware Dynamic Filtering strategy to enhance the efficiency of the RL stage by prioritizing learnable samples based on spatial difficulty. Extensive experiments on standard benchmarks demonstrate that SpotAgent achieves state-of-the-art performance, effectively mitigating hallucinations while delivering precise and verifiable geo-localization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.