NavTrust: 임베디드 내비게이션의 신뢰성 평가를 위한 벤치마크
NavTrust: Benchmarking Trustworthiness for Embodied Navigation
임베디드 내비게이션은 크게 두 가지 범주로 나뉩니다. 하나는 자연어 지시를 따라 에이전트가 이동하는 비전-언어 내비게이션(VLN)이고, 다른 하나는 에이전트가 특정 목표 객체로 이동하는 객체-목표 내비게이션(OGN)입니다. 그러나 기존 연구는 주로 정상적인 조건에서 모델의 성능을 평가하며, 실제 환경에서 발생할 수 있는 잠재적인 오류를 간과합니다. 이러한 간극을 해소하기 위해, 저희는 NavTrust라는 통합 벤치마크를 제안합니다. NavTrust는 실제 시나리오에서 RGB, 깊이 정보, 지시 사항 등 다양한 입력 모달리티를 체계적으로 왜곡하고, 이러한 왜곡이 내비게이션 성능에 미치는 영향을 평가합니다. 저희가 알고 보니, NavTrust는 다양한 RGB-깊이 왜곡과 지시 사항 변형을 통합 프레임워크에서 임베디드 내비게이션 에이전트에 적용하는 최초의 벤치마크입니다. 저희가 개발한 7개의 최첨단 접근 방식에 대한 광범위한 평가는 현실적인 왜곡 조건에서 상당한 성능 저하를 보여주며, 이는 중요한 신뢰성 부족 문제를 드러내고, 더욱 신뢰할 수 있는 임베디드 내비게이션 시스템 개발을 위한 로드맵을 제시합니다. 또한, 저희는 RGB-깊이 및 지시 사항 왜곡에 대한 견고성을 향상시키기 위한 4가지 구체적인 완화 전략을 체계적으로 평가했습니다. 저희의 기본 모델은 Uni-NaVid와 ETPNav이며, 이를 실제 모바일 로봇에 적용하여 왜곡에 대한 향상된 견고성을 관찰했습니다. 프로젝트 웹사이트는 https://navtrust.github.io 입니다.
There are two major categories of embodied navigation: Vision-Language Navigation (VLN), where agents navigate by following natural language instructions; and Object-Goal Navigation (OGN), where agents navigate to a specified target object. However, existing work primarily evaluates model performance under nominal conditions, overlooking the potential corruptions that arise in real-world settings. To address this gap, we present NavTrust, a unified benchmark that systematically corrupts input modalities, including RGB, depth, and instructions, in realistic scenarios and evaluates their impact on navigation performance. To our best knowledge, NavTrust is the first benchmark that exposes embodied navigation agents to diverse RGB-Depth corruptions and instruction variations in a unified framework. Our extensive evaluation of seven state-of-the-art approaches reveals substantial performance degradation under realistic corruptions, which highlights critical robustness gaps and provides a roadmap toward more trustworthy embodied navigation systems. Furthermore, we systematically evaluate four distinct mitigation strategies to enhance robustness against RGB-Depth and instructions corruptions. Our base models include Uni-NaVid and ETPNav. We deployed them on a real mobile robot and observed improved robustness to corruptions. The project website is: https://navtrust.github.io.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.