오디오-비주얼 내비게이션을 위한 잔차 기반 크로스-모달 퓨전 네트워크
Residual Cross-Modal Fusion Networks for Audio-Visual Navigation
오디오-비주얼 임베디드 내비게이션은 에이전트가 청각 정보를 활용하여 새로운 3차원 환경에서 소스 위치를 자율적으로 파악하고 도달하는 것을 목표로 합니다. 이 작업의 핵심적인 과제는 다중 모달 퓨전 과정에서 이질적인 특징 간의 상호 작용을 효과적으로 모델링하는 것입니다. 이는 단일 모달리티의 지배 또는 정보 손실을 방지하고, 특히 다른 도메인의 시나리오에서 더욱 중요합니다. 이러한 문제를 해결하기 위해, 우리는 오디오 및 비주얼 스트림 간의 양방향 잔차 상호 작용을 도입하여 상호 보완적인 모델링과 미세한 정렬을 달성하는 동시에 각 표현의 독립성을 유지하는 크로스-모달 잔차 퓨전 네트워크(CRFN)를 제안합니다. 기존 방법이 단순한 연결 또는 어텐션 게이팅에 의존하는 것과 달리, CRFN은 잔차 연결을 통해 명시적으로 크로스-모달 상호 작용을 모델링하고, 수렴 및 안정성을 향상시키기 위한 안정화 기술을 통합합니다. Replica 및 Matterport3D 데이터셋에 대한 실험 결과, CRFN은 최첨단 퓨전 모델보다 훨씬 우수한 성능을 보이며, 더 강력한 교차 도메인 일반화 능력을 보여줍니다. 또한, 우리의 실험 결과는 에이전트가 서로 다른 데이터셋에서 서로 다른 모달리티에 대한 의존성을 나타냄을 보여줍니다. 이러한 현상의 발견은 임베디드 에이전트의 크로스-모달 협업 메커니즘을 이해하는 데 새로운 관점을 제공합니다.
Audio-visual embodied navigation aims to enable an agent to autonomously localize and reach a sound source in unseen 3D environments by leveraging auditory cues. The key challenge of this task lies in effectively modeling the interaction between heterogeneous features during multimodal fusion, so as to avoid single-modality dominance or information degradation, particularly in cross-domain scenarios. To address this, we propose a Cross-Modal Residual Fusion Network, which introduces bidirectional residual interactions between audio and visual streams to achieve complementary modeling and fine-grained alignment, while maintaining the independence of their representations. Unlike conventional methods that rely on simple concatenation or attention gating, CRFN explicitly models cross-modal interactions via residual connections and incorporates stabilization techniques to improve convergence and robustness. Experiments on the Replica and Matterport3D datasets demonstrate that CRFN significantly outperforms state-of-the-art fusion baselines and achieves stronger cross-domain generalization. Notably, our experiments also reveal that agents exhibit differentiated modality dependence across different datasets. The discovery of this phenomenon provides a new perspective for understanding the cross-modal collaboration mechanism of embodied agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.