2603.08007v1 Mar 09, 2026 cs.CV

ViSA 기반 항공 시각-언어 내비게이션: 시각-공간 추론 강화 프레임워크

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Xiaoguang Ma
Xiaoguang Ma
Citations: 1
h-index: 1
Haoran Zhao
Haoran Zhao
Citations: 151
h-index: 5
Yaoming Zhou
Yaoming Zhou
Citations: 36
h-index: 3
Haoyu Tong
Haoyu Tong
Citations: 18
h-index: 2
Xiangyu Dong
Xiangyu Dong
Citations: 5
h-index: 1
Chenghao Lin
Chenghao Lin
Citations: 51
h-index: 3

기존의 항공 시각-언어 내비게이션(VLN) 방법은 주로 탐지 및 계획 파이프라인을 채택하며, 이를 통해 개방형 어휘의 탐지 결과를 이산적인 텍스트 기반 장면 그래프로 변환합니다. 이러한 접근 방식은 불충분한 공간 추론 능력과 내재적인 언어적 모호성 문제를 안고 있습니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 항공 VLN을 위한 시각-공간 추론(ViSA) 강화 프레임워크를 제안합니다. 구체적으로, 구조화된 시각적 프롬프팅을 활용하여 시각-언어 모델(VLM)이 추가적인 훈련이나 복잡한 중간 표현 없이 이미지 플레인에 대한 직접적인 추론을 수행할 수 있도록 하는 3단계 협업 아키텍처를 설계했습니다. CityNav 벤치마크에 대한 종합적인 평가 결과, ViSA 기반 VLN은 완전하게 훈련된 최고 성능(SOTA) 방법과 비교하여 성공률이 70.3% 향상되었으며, 이는 항공 VLN 시스템의 핵심 기술로서의 잠재력을 보여줍니다.

Original Abstract

Existing aerial Vision-Language Navigation (VLN) methods predominantly adopt a detection-and-planning pipeline, which converts open-vocabulary detections into discrete textual scene graphs. These approaches are plagued by inadequate spatial reasoning capabilities and inherent linguistic ambiguities. To address these bottlenecks, we propose a Visual-Spatial Reasoning (ViSA) enhanced framework for aerial VLN. Specifically, a triple-phase collaborative architecture is designed to leverage structured visual prompting, enabling Vision-Language Models (VLMs) to perform direct reasoning on image planes without the need for additional training or complex intermediate representations. Comprehensive evaluations on the CityNav benchmark demonstrate that the ViSA-enhanced VLN achieves a 70.3\% improvement in success rate compared to the fully trained state-of-the-art (SOTA) method, elucidating its great potential as a backbone for aerial VLN systems.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!