ConSensus: 멀티모달 센싱을 위한 다중 에이전트 협업
ConSensus: Multi-Agent Collaboration for Multimodal Sensing
대규모 언어 모델(LLM)은 인간의 생리 및 물리적 세계를 인지하고 추론하기 위해 센서 데이터에 기반하는 경우가 늘어나고 있습니다. 그러나 이질적인 멀티모달 센서 데이터를 정확하게 해석하는 것은 여전히 근본적인 과제로 남아 있습니다. 본 연구에서는 단일 거대 LLM이 종종 여러 모달리티에 걸쳐 일관되게 추론하지 못하며, 이로 인해 불완전한 해석과 사전 지식 편향이 발생한다는 것을 보여줍니다. 이에 우리는 멀티모달 센싱 작업을 전문화되고 모달리티를 인식하는 에이전트들로 분해하는, 훈련이 필요 없는 다중 에이전트 협업 프레임워크인 ConSensus를 제안합니다. 에이전트 수준의 해석을 종합하기 위해, 교차 모달 추론과 맥락적 이해를 가능하게 하는 '의미적 통합'과 모달리티 간의 일치를 통해 강건성을 제공하는 '통계적 합의'의 균형을 맞추는 하이브리드 융합 메커니즘을 제안합니다. 각 접근 방식은 상호 보완적인 실패 양상을 보이지만, 이들의 결합은 센서 노이즈와 데이터 누락 상황에서도 신뢰할 수 있는 추론을 가능하게 합니다. 5가지의 다양한 멀티모달 센싱 벤치마크에서 ConSensus를 평가한 결과, 단일 에이전트 베이스라인 대비 평균 7.1%의 정확도 향상을 입증했습니다. 또한 ConSensus는 단일 라운드 하이브리드 융합 프로토콜을 통해 반복적인 다중 에이전트 토론 방식의 성능과 대등하거나 이를 능가하면서도 평균 융합 토큰 비용을 12.7배 절감하여, 실제 멀티모달 센싱 작업을 위한 강건하고 효율적인 솔루션을 제공합니다.
Large language models (LLMs) are increasingly grounded in sensor data to perceive and reason about human physiology and the physical world. However, accurately interpreting heterogeneous multimodal sensor data remains a fundamental challenge. We show that a single monolithic LLM often fails to reason coherently across modalities, leading to incomplete interpretations and prior-knowledge bias. We introduce ConSensus, a training-free multi-agent collaboration framework that decomposes multimodal sensing tasks into specialized, modality-aware agents. To aggregate agent-level interpretations, we propose a hybrid fusion mechanism that balances semantic aggregation, which enables cross-modal reasoning and contextual understanding, with statistical consensus, which provides robustness through agreement across modalities. While each approach has complementary failure modes, their combination enables reliable inference under sensor noise and missing data. We evaluate ConSensus on five diverse multimodal sensing benchmarks, demonstrating an average accuracy improvement of 7.1% over the single-agent baseline. Furthermore, ConSensus matches or exceeds the performance of iterative multi-agent debate methods while achieving a 12.7 times reduction in average fusion token cost through a single-round hybrid fusion protocol, yielding a robust and efficient solution for real-world multimodal sensing tasks.
AI Analysis
Korean Summary
Key Innovations
- 센서 유형별로 독립적인 해석을 수행하는 '모달리티 인식 에이전트(Modality-Aware Agents)' 구조
- LLM의 의미론적 추론과 통계적 다수결 합의의 장점을 결합한 '하이브리드 퓨전(Hybrid Fusion)' 전략
- 반복적인 토론 과정(Iterative Debate)을 제거하고 단일 라운드 퓨전 프로토콜을 사용하여 추론 비용(토큰 사용량)을 획기적으로 절감
- 센서 데이터 누락이나 노이즈 상황에서도 강건성을 유지하는 의사결정 프레임워크
Learning & Inference Impact
학습 측면에서는 별도의 모델 훈련이나 파인튜닝이 필요 없는 프롬프트 엔지니어링 기반의 접근법을 취하여 배포 용이성을 극대화했습니다. 추론 측면에서는 여러 에이전트를 사용함에도 불구하고, 기존의 최신 멀티 에이전트 토론 방식들이 겪는 높은 계산 비용(토큰 소모) 문제를 해결했습니다. 단일 라운드 구조를 통해 추론 속도와 비용 효율성을 높였으며, 개별 센서 에이전트의 해석을 통해 결과에 대한 설명력(Interpretability)을 제공하고 센서 결함(Missing Modality)에 대한 내성을 크게 강화했습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.