2602.15875v1 Feb 02, 2026 cs.RO

Fly0: 의미적 이해와 기하학적 계획 분리를 통한 제로샷 항공 탐색

Fly0: Decoupling Semantic Grounding from Geometric Planning for Zero-Shot Aerial Navigation

Zhenxing Xu
Zhenxing Xu
Citations: 13
h-index: 2
Brikit Lu
Brikit Lu
Citations: 0
h-index: 0
Weidong Bao
Weidong Bao
Citations: 71
h-index: 5
Zhengqiu Zhu
Zhengqiu Zhu
Citations: 6
h-index: 1
Junsong Zhang
Junsong Zhang
Citations: 4
h-index: 1
Hui Yan
Hui Yan
Citations: 6
h-index: 1
Wenhao Lu
Wenhao Lu
Citations: 132
h-index: 5
Ji Wang
Ji Wang
Citations: 1
h-index: 1

현재의 시각-언어 탐색(VLN) 방법론은 의미적 이해와 제어 정밀도 간의 균형 문제를 안고 있습니다. 멀티모달 대규모 언어 모델(MLLM)은 뛰어난 추론 능력을 제공하지만, 이를 저수준 제어기로 사용할 경우 높은 지연 시간, 경로 불안정, 그리고 취약한 기하학적 연결성으로 인해 일반화 성능이 저하될 수 있습니다. 이러한 한계를 극복하기 위해, 우리는 의미적 추론과 기하학적 계획을 분리하는 프레임워크인 Fly0을 제안합니다. 제안된 방법은 세 단계로 구성된 파이프라인을 통해 작동합니다: (1) MLLM 기반 모듈은 자연어 명령어를 2D 픽셀 좌표로 변환합니다; (2) 기하학적 투영 모듈은 깊이 데이터를 활용하여 3D 공간에서 목표 위치를 특정합니다; (3) 기하학적 계획기는 충돌을 피하는 경로를 생성합니다. 이러한 메커니즘은 시각적 정보가 손실되더라도 안정적인 탐색을 가능하게 합니다. Fly0은 지속적인 추론이 필요 없으므로 계산 오버헤드를 줄이고 시스템 안정성을 향상시킵니다. 시뮬레이션 및 실제 환경에서의 광범위한 실험 결과, Fly0은 최첨단 모델보다 우수한 성능을 보이며, 비정형 환경에서 성공률을 20% 이상 향상시키고 탐색 오차(NE)를 약 50% 줄였습니다. 저희의 코드는 https://github.com/xuzhenxing1/Fly0 에서 확인할 수 있습니다.

Original Abstract

Current Visual-Language Navigation (VLN) methodologies face a trade-off between semantic understanding and control precision. While Multimodal Large Language Models (MLLMs) offer superior reasoning, deploying them as low-level controllers leads to high latency, trajectory oscillations, and poor generalization due to weak geometric grounding. To address these limitations, we propose Fly0, a framework that decouples semantic reasoning from geometric planning. The proposed method operates through a three-stage pipeline: (1) an MLLM-driven module for grounding natural language instructions into 2D pixel coordinates; (2) a geometric projection module that utilizes depth data to localize targets in 3D space; and (3) a geometric planner that generates collision-free trajectories. This mechanism enables robust navigation even when visual contact is lost. By eliminating the need for continuous inference, Fly0 reduces computational overhead and improves system stability. Extensive experiments in simulation and real-world environments demonstrate that Fly0 outperforms state-of-the-art baselines, improving the Success Rate by over 20\% and reducing Navigation Error (NE) by approximately 50\% in unstructured environments. Our code is available at https://github.com/xuzhenxing1/Fly0.

0 Citations
0 Influential
36.040251005511 Altmetric
180.2 Score
Original PDF
14

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!