2602.09463v2 Feb 10, 2026 cs.AI

SpotAgent: 에이전트 기반 추론을 통한 대규모 시각-언어 모델의 시각적 지리 위치 결정

SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning

Furong Jia
Furong Jia
Citations: 45
h-index: 3
Ling Dai
Ling Dai
Citations: 13
h-index: 1
Wen-Yu Deng
Wen-Yu Deng
Citations: 119
h-index: 3
Fan Zhang
Fan Zhang
Citations: 37
h-index: 3
Chen Hu
Chen Hu
Citations: 217
h-index: 6
Daxin Jiang
Daxin Jiang
Citations: 51
h-index: 4
Yu Liu
Yu Liu
Citations: 1
h-index: 1

대규모 시각-언어 모델(LVLM)은 지리 위치 결정 분야에서 뛰어난 추론 능력을 보여주지만, 실제 환경에서는 시각적 단서가 부족하거나, 데이터 분포가 불균형하고, 모호한 경우 어려움을 겪는 경우가 많습니다. 기존 방식은 내부 지식에 의존하는 경향이 있어, 검증 가능한 결과를 제공하지 못하며, 때로는 확신에 찬 예측을 내놓지만 실제 근거가 부족한 경우가 발생합니다. 이러한 문제점을 해결하기 위해, 우리는 SpotAgent라는 프레임워크를 제안합니다. SpotAgent는 지리 위치 결정을 에이전트 기반의 추론 과정으로 formalize하고, 전문가 수준의 추론을 활용하여 시각적 해석과 외부 도구를 활용한 검증을 결합합니다. SpotAgent는 ReAct 다이어그램을 통해 외부 도구(예: 웹 검색, 지도)를 활용하여 시각적 단서를 적극적으로 탐색하고 검증합니다. 우리는 3단계의 post-training 파이프라인을 도입합니다. 먼저, 기본적인 정렬을 위한 지도 학습(SFT) 단계를 진행하고, 그 다음에는 고품질의 다중 에이전트 프레임워크를 통해 생성된 데이터를 활용하여 도구 사용 능력을 향상시키는 에이전트 기반 초기 학습 단계를 진행합니다. 마지막으로, 강화 학습을 통해 모델의 추론 능력을 개선합니다. 우리는 공간 정보를 고려한 동적 필터링 전략을 제안하여, 강화 학습 단계에서 학습 효율성을 높이기 위해 공간적인 난이도를 기준으로 우선순위를 부여합니다. 표준 벤치마크에 대한 광범위한 실험 결과, SpotAgent는 최첨단 성능을 달성하며, 환각 현상을 효과적으로 완화하면서 정확하고 검증 가능한 지리 위치 결정을 제공하는 것으로 나타났습니다.

Original Abstract

Large Vision-Language Models (LVLMs) have demonstrated strong reasoning capabilities in geo-localization, yet they often struggle in real-world scenarios where visual cues are sparse, long-tailed, and highly ambiguous. Previous approaches, bound by internal knowledge, often fail to provide verifiable results, yielding confident but ungrounded predictions when faced with confounded evidence. To address these challenges, we propose SpotAgent, a framework that formalizes geo-localization into an agentic reasoning process that leverages expert-level reasoning to synergize visual interpretation with tool-assisted verification. SpotAgent actively explores and verifies visual cues by leveraging external tools (e.g., web search, maps) through a ReAct diagram. We introduce a 3-stage post-training pipeline starting with a Supervised Fine-Tuning (SFT) stage for basic alignment, followed by an Agentic Cold Start phase utilizing high-quality trajectories synthesized via a Multi-Agent framework, aiming to instill tool-calling expertise. Subsequently, the model's reasoning capabilities are refined through Reinforcement Learning. We propose a Spatially-Aware Dynamic Filtering strategy to enhance the efficiency of the RL stage by prioritizing learnable samples based on spatial difficulty. Extensive experiments on standard benchmarks demonstrate that SpotAgent achieves state-of-the-art performance, effectively mitigating hallucinations while delivering precise and verifiable geo-localization.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!