왜 의구심을 혼자만 간직하는가? 다중 에이전트 밴딧 시스템에서의 시각적 불확실성 거래
Why Keep Your Doubts to Yourself? Trading Visual Uncertainties in Multi-Agent Bandit Systems
시각-언어 모델(VLM)은 강력한 다중 에이전트 시스템을 가능하게 하지만, 이를 확장하는 것은 경제적으로 지속 불가능합니다. 정보 비대칭 상황에서 이질적인 에이전트들을 조정하는 것은 종종 비용을 급증시킵니다. Mixture-of-Agents나 지식 기반 라우터와 같은 기존 패러다임은 비용을 무시하고 불확실성 구조를 붕괴시키는 휴리스틱 대리 지표에 의존하여, 증명 가능할 정도로 최적화되지 않은 조정 결과를 초래합니다. 우리는 조정을 불확실성에 대한 탈중앙화된 시장으로 재구성하는 프레임워크인 Agora를 소개합니다. Agora는 인식적 불확실성을 구조화되고 거래 가능한 자산(지각적, 의미적, 추론적)으로 정형화하고, 합리적 경제 규칙에 기반하여 에이전트 간의 수익성 중심 거래를 시행합니다. 톰슨 샘플링(Thompson Sampling)을 확장한 시장 인식 브로커가 협업을 시작하고 시스템을 비용 효율적인 균형점으로 유도합니다. 5가지 멀티모달 벤치마크(MMMU, MMBench, MathVision, InfoVQA, CC-OCR)에 대한 실험 결과, Agora는 강력한 VLM 및 휴리스틱 다중 에이전트 전략을 능가하는 것으로 나타났습니다. 예를 들어, MMMU에서 최고의 베이스라인 대비 +8.5%의 정확도를 달성하면서도 비용은 3배 이상 절감했습니다. 이러한 결과는 시장 기반 조정이 경제적으로 실행 가능한 다중 에이전트 시각 지능 시스템을 구축하기 위한 체계적이고 확장 가능한 패러다임임을 입증합니다.
Vision-Language Models (VLMs) enable powerful multi-agent systems, but scaling them is economically unsustainable: coordinating heterogeneous agents under information asymmetry often spirals costs. Existing paradigms, such as Mixture-of-Agents and knowledge-based routers, rely on heuristic proxies that ignore costs and collapse uncertainty structure, leading to provably suboptimal coordination. We introduce Agora, a framework that reframes coordination as a decentralized market for uncertainty. Agora formalizes epistemic uncertainty into a structured, tradable asset (perceptual, semantic, inferential), and enforces profitability-driven trading among agents based on rational economic rules. A market-aware broker, extending Thompson Sampling, initiates collaboration and guides the system toward cost-efficient equilibria. Experiments on five multimodal benchmarks (MMMU, MMBench, MathVision, InfoVQA, CC-OCR) show that Agora outperforms strong VLMs and heuristic multi-agent strategies, e.g., achieving +8.5% accuracy over the best baseline on MMMU while reducing cost by over 3x. These results establish market-based coordination as a principled and scalable paradigm for building economically viable multi-agent visual intelligence systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.