2605.06595v1 May 07, 2026 cs.RO

멀티 에이전트 강화 학습을 이용한 다중 모드 내비게이션

Cross-Modal Navigation with Multi-Agent Reinforcement Learning

Shuo Liu
Shuo Liu
Citations: 35
h-index: 2
Christopher Amato
Christopher Amato
Citations: 133
h-index: 4
Xinzichen Li
Xinzichen Li
Citations: 1
h-index: 1

견고한 로봇 내비게이션은 상호 보완적인 감각 정보를 필요로 합니다. 그러나 실제 환경에서는 고품질의 정렬된 다중 모드 데이터를 얻는 것이 종종 어렵습니다. 또한, 풍부한 다중 모드 입력은 복잡한 표현을 유도하고 정책 공간을 크게 확장시키므로 단일 모델로 학습하는 것은 어렵습니다. 경량화된, 각 모드에 특화된 에이전트 간의 다중 모드 협력은 확장 가능한 방법론을 제공합니다. 이는 유연한 배포와 병렬 처리를 가능하게 하면서 각 모드의 장점을 유지합니다. 본 논문에서는 다중 모드 내비게이션을 위한 멀티 에이전트 강화 학습(MARL) 프레임워크인 CRONA를 제안합니다. CRONA는 제어와 관련된 보조적인 정보를 활용하고, 전역 상태를 가진 중앙 집중식 다중 모드 평가기를 사용하여 협력을 향상시킵니다. 시각-음성 내비게이션 작업에 대한 실험 결과, 멀티 에이전트 방법은 단일 에이전트 기반 모델보다 성능과 효율성을 크게 향상시키는 것을 보여줍니다. 연구 결과, 뚜렷한 특징이 있는 환경에서 제한된 모드를 사용한 균일한 협력은 단거리 내비게이션에 충분하며, 상호 보완적인 모드를 가진 에이전트 간의 이질적인 협력은 일반적으로 효율적이고 효과적입니다. 또한, 넓고 복잡한 환경에서의 내비게이션에는 더 풍부한 다중 모드 인지와 모델의 확장성이 필요합니다.

Original Abstract

Robust embodied navigation relies on complementary sensory cues. However, high-quality and well-aligned multi-modal data is often difficult to obtain in practice. Training a monolithic model is also challenging as rich multi-modal inputs induce complex representations and substantially enlarge the policy space. Cross-modal collaboration among lightweight modality-specialized agents offers a scalable paradigm. It enables flexible deployment and parallel execution, while preserving the strength of each modality. In this paper, we propose \textbf{CRONA}, a Multi-Agent Reinforcement Learning (MARL) framework for \textbf{Cro}ss-Modal \textbf{Na}vigation. CRONA improves collaboration by leveraging control-relevant auxiliary beliefs and a centralized multi-modal critic with global state. Experiments on visual-acoustic navigation tasks show that multi-agent methods significantly improve performance and efficiency over single-agent baselines. We find that homogeneous collaboration with limited modalities is sufficient for short-range navigation under salient cues; heterogeneous collaboration among agents with complementary modalities is generally efficient and effective; and navigation in large, complex environments requires both richer multi-modal perception and increased model capacity.

1 Citations
0 Influential
2 Altmetric
11.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!