SpatialFly: 기하학 정보 기반 표현 정렬 - 도시 환경에서의 UAV 비전-언어 내비게이션
SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments
무인 항공기(UAV)는 자율 탐색, 재난 대응 및 기반 시설 검사와 같은 다양한 분야에서 중요한 역할을 합니다. 그러나 복잡한 3차원 환경에서 UAV 비전-언어 내비게이션(VLN)은 여전히 어려운 과제입니다. 주요 어려움은 2차원 시각적 인식과 3차원 경로 결정 공간 간의 구조적 표현 불일치로 인해 공간적 추론이 제한되는 점입니다. 이에, 본 연구에서는 UAV VLN을 위한 기하학 정보 기반 공간 표현 프레임워크인 SpatialFly를 제안합니다. SpatialFly는 명시적인 3차원 재구성이 없는 RGB 관찰 데이터를 사용하여 작동하며, 기하학 정보 기반의 2차원 표현 정렬 메커니즘을 도입합니다. 구체적으로, 기하학적 사전 정보 주입 모듈은 장면 수준의 기하학적 지침을 제공하기 위해 글로벌 구조적 단서를 2차원 의미 토큰에 주입합니다. 이후, 기하학 정보를 인지하는 재파라미터화 모듈은 크로스 모달 어텐션을 통해 2차원 의미 토큰을 3차원 기하학 토큰과 정렬하고, 게이티드 잔차 융합을 통해 의미적 구분을 유지합니다. 실험 결과는 SpatialFly가 기존의 최첨단 UAV VLN 모델보다 다양한 환경에서 일관되게 우수한 성능을 보임을 보여주며, 특히 새로운 환경에서 NE(Navigation Error, 항법 오차)를 4.03m 감소시키고 SR(Success Rate, 성공률)을 1.27% 향상시켰습니다. 추가적인 경로 수준 분석 결과, SpatialFly는 더 나은 경로 일치 및 부드럽고 안정적인 움직임을 갖는 경로를 생성하는 것으로 나타났습니다.
UAVs play an important role in applications such as autonomous exploration, disaster response, and infrastructure inspection. However, UAV VLN in complex 3D environments remains challenging. A key difficulty is the structural representation mismatch between 2D visual perception and the 3D trajectory decision space, which limits spatial reasoning. To this end, we propose SpatialFly, a geometry-guided spatial representation framework for UAV VLN. Operating on RGB observations without explicit 3D reconstruction, SpatialFly introduces a geometry-guided 2D representation alignment mechanism. Specifically, the geometric prior injection module injects global structural cues into 2D semantic tokens to provide scene-level geometric guidance. The geometry-aware reparameterization module then aligns 2D semantic tokens with 3D geometric tokens through cross-modal attention, followed by gated residual fusion to preserve semantic discrimination. Experimental results show that SpatialFly consistently outperforms state-of-the-art UAV VLN baselines across both seen and unseen environments, reducing NE by 4.03m and improving SR by 1.27% over the strongest baseline on the unseen Full split. Additional trajectory-level analysis shows that SpatialFly produces trajectories with better path alignment and smoother, more stable motion.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.