Rule-VLN: 의미 기반 추론과 기하학적 보정을 통한 인식과 규정 준수 간의 연결
Rule-VLN: Bridging Perception and Compliance via Semantic Reasoning and Geometric Rectification
자율 로봇 기술이 실제 환경으로 확장됨에 따라, 시각-언어 네비게이션(VLN)의 성공은 단순한 목표 도달뿐만 아니라 사회적 규정 준수를 포함하게 됩니다. 그러나 현재의 에이전트는 '목표 중심 함정'에 빠져, 물리적 기하학적 요소('갈 수 있는가?')를 우선시하고 의미 기반 규칙('가도 되는가?')을 간과하는 경향이 있으며, 이는 미묘한 규제 제약을 놓치게 됩니다. 이러한 간극을 해소하기 위해, 우리는 규칙 준수 네비게이션을 위한 최초의 대규모 도시 벤치마크인 Rule-VLN을 구축했습니다. Rule-VLN은 29,000개의 노드로 구성된 방대한 환경을 포함하며, 8,000개의 제약 노드에 177가지 다양한 규제 범주를 적용하여, 네 가지 난이도 수준으로 시각적 및 행동적 제약을 통해 에이전트를 훈련합니다. 또한, 사전 훈련된 에이전트에게 안전 인지 능력을 부여하도록 설계된 범용적인 제로샷 모듈인 Semantic Navigation Rectification Module (SNRM)을 제안합니다. SNRM은 거친 단계에서 세밀한 단계로 진행되는 시각적 인식 VLM 프레임워크와 동적 우회 경로 계획을 위한 인지적 정신 지도를 통합합니다. 실험 결과, Rule-VLN이 최첨단 모델에 도전을 가하는 반면, SNRM은 네비게이션 능력을 크게 향상시켜 CVR(Collision-Vision Rate)을 19.26% 감소시키고 TC(Task Completion Rate)를 5.97% 향상시켰습니다.
As embodied AI transitions to real-world deployment, the success of the Vision-and-Language Navigation (VLN) task tends to evolve from mere reachability to social compliance. However, current agents suffer from a "goal-driven trap", prioritizing physical geometry ("can I go?") over semantic rules ("may I go?"), frequently overlooking subtle regulatory constraints. To bridge this gap, we establish Rule-VLN, the first large-scale urban benchmark for rule-compliant navigation. Spanning a massive 29k-node environment, it injects 177 diverse regulatory categories into 8k constrained nodes across four curriculum levels, challenging agents with fine-grained visual and behavioral constraints. We further propose the Semantic Navigation Rectification Module (SNRM), a universal, zero-shot module designed to equip pre-trained agents with safety awareness. SNRM integrates a coarse-to-fine visual perception VLM framework with an epistemic mental map for dynamic detour planning. Experiments demonstrate that while Rule-VLN challenges state-of-the-art models, SNRM significantly restores navigation capabilities, reducing CVR by 19.26% and boosting TC by 5.97%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.