Fly0: 의미적 이해와 기하학적 계획 분리를 통한 제로샷 항공 탐색
Fly0: Decoupling Semantic Grounding from Geometric Planning for Zero-Shot Aerial Navigation
현재의 시각-언어 탐색(VLN) 방법론은 의미적 이해와 제어 정밀도 간의 균형 문제를 안고 있습니다. 멀티모달 대규모 언어 모델(MLLM)은 뛰어난 추론 능력을 제공하지만, 이를 저수준 제어기로 사용할 경우 높은 지연 시간, 경로 불안정, 그리고 취약한 기하학적 연결성으로 인해 일반화 성능이 저하될 수 있습니다. 이러한 한계를 극복하기 위해, 우리는 의미적 추론과 기하학적 계획을 분리하는 프레임워크인 Fly0을 제안합니다. 제안된 방법은 세 단계로 구성된 파이프라인을 통해 작동합니다: (1) MLLM 기반 모듈은 자연어 명령어를 2D 픽셀 좌표로 변환합니다; (2) 기하학적 투영 모듈은 깊이 데이터를 활용하여 3D 공간에서 목표 위치를 특정합니다; (3) 기하학적 계획기는 충돌을 피하는 경로를 생성합니다. 이러한 메커니즘은 시각적 정보가 손실되더라도 안정적인 탐색을 가능하게 합니다. Fly0은 지속적인 추론이 필요 없으므로 계산 오버헤드를 줄이고 시스템 안정성을 향상시킵니다. 시뮬레이션 및 실제 환경에서의 광범위한 실험 결과, Fly0은 최첨단 모델보다 우수한 성능을 보이며, 비정형 환경에서 성공률을 20% 이상 향상시키고 탐색 오차(NE)를 약 50% 줄였습니다. 저희의 코드는 https://github.com/xuzhenxing1/Fly0 에서 확인할 수 있습니다.
Current Visual-Language Navigation (VLN) methodologies face a trade-off between semantic understanding and control precision. While Multimodal Large Language Models (MLLMs) offer superior reasoning, deploying them as low-level controllers leads to high latency, trajectory oscillations, and poor generalization due to weak geometric grounding. To address these limitations, we propose Fly0, a framework that decouples semantic reasoning from geometric planning. The proposed method operates through a three-stage pipeline: (1) an MLLM-driven module for grounding natural language instructions into 2D pixel coordinates; (2) a geometric projection module that utilizes depth data to localize targets in 3D space; and (3) a geometric planner that generates collision-free trajectories. This mechanism enables robust navigation even when visual contact is lost. By eliminating the need for continuous inference, Fly0 reduces computational overhead and improves system stability. Extensive experiments in simulation and real-world environments demonstrate that Fly0 outperforms state-of-the-art baselines, improving the Success Rate by over 20\% and reducing Navigation Error (NE) by approximately 50\% in unstructured environments. Our code is available at https://github.com/xuzhenxing1/Fly0.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.