2603.22846v1 Mar 24, 2026 cs.AI

CoMaTrack: 비전-언어-행동 모델을 활용한 경쟁적 다중 에이전트 게임 이론 기반 추적

CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models

Mingyang Lv
Mingyang Lv
Citations: 4
h-index: 2
Yang Cai
Yang Cai
Citations: 51
h-index: 4
Youzhi Liu
Youzhi Liu
Citations: 43
h-index: 3
Linze Gao
Linze Gao
Citations: 0
h-index: 0
Liu Liu
Liu Liu
Citations: 25
h-index: 2

체화된 시각 추적(EVT)은 체화된 지능의 핵심적인 동적 과제로, 에이전트가 언어로 지정된 목표를 정확하게 추적해야 합니다. 그러나 대부분의 기존 방법은 단일 에이전트 모방 학습에 의존하며, 이는 비용이 많이 드는 전문가 데이터와 정적인 훈련 환경으로 인해 일반화 능력이 제한됩니다. 경쟁을 통한 역량 진화에 영감을 받아, 우리는 경쟁적 게임 이론적 다중 에이전트 강화 학습 프레임워크인 CoMaTrack을 제안합니다. CoMaTrack은 에이전트들을 역동적인 적대적 환경에서 경쟁적인 하위 과제를 통해 훈련하여, 더 강력한 적응적 계획 능력과 간섭에 강한 전략을 얻을 수 있습니다. 또한, 우리는 EVT의 경쟁적 측면을 평가하기 위한 첫 번째 벤치마크인 CoMaTrack-Bench를 소개합니다. CoMaTrack-Bench는 다양한 환경과 지침에서 추적자와 적응적인 상대방 간의 게임 시나리오를 포함하며, 능동적인 적대적 상호 작용 하에서 표준화된 견고성 평가를 가능하게 합니다. 실험 결과, CoMaTrack은 표준 벤치마크와 CoMaTrack-Bench 모두에서 최첨단 결과를 달성했습니다. 특히, 당사의 프레임워크로 훈련된 30억 개의 VLM은 70억 개의 모델을 기반으로 한 기존의 단일 에이전트 모방 학습 방법보다 어려운 EVT-Bench에서 92.1%의 STT, 74.2%의 DT, 57.5%의 AT를 달성했습니다. 벤치마크 코드는 https://github.com/wlqcode/CoMaTrack-Bench 에서 확인할 수 있습니다.

Original Abstract

Embodied Visual Tracking (EVT), a core dynamic task in embodied intelligence, requires an agent to precisely follow a language-specified target. Yet most existing methods rely on single-agent imitation learning, suffering from costly expert data and limited generalization due to static training environments. Inspired by competition-driven capability evolution, we propose CoMaTrack, a competitive game-theoretic multi-agent reinforcement learning framework that trains agents in a dynamic adversarial setting with competitive subtasks, yielding stronger adaptive planning and interference-resilient strategies. We further introduce CoMaTrack-Bench, the first benchmark for competitive EVT, featuring game scenarios between a tracker and adaptive opponents across diverse environments and instructions, enabling standardized robustness evaluation under active adversarial interactions. Experiments show that CoMaTrack achieves state-of-the-art results on both standard benchmarks and CoMaTrack-Bench. Notably, a 3B VLM trained with our framework surpasses previous single-agent imitation learning methods based on 7B models on the challenging EVT-Bench, achieving 92.1% in STT, 74.2% in DT, and 57.5% in AT. The benchmark code will be available at https://github.com/wlqcode/CoMaTrack-Bench

0 Citations
0 Influential
22 Altmetric
110.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!