2601.06453v1 Jan 10, 2026 cs.AI

ConSensus: 멀티모달 센싱을 위한 다중 에이전트 협업

ConSensus: Multi-Agent Collaboration for Multimodal Sensing

Hyungjun Yoon
Hyungjun Yoon
Citations: 56
h-index: 4
Mohammad Malekzadeh
Mohammad Malekzadeh
Citations: 67
h-index: 4
F. Kawsar
F. Kawsar
Citations: 6,546
h-index: 35
Lorena Qendro
Lorena Qendro
Citations: 923
h-index: 3
Sungjin Lee
Sungjin Lee
Citations: 16
h-index: 1

대규모 언어 모델(LLM)은 인간의 생리 및 물리적 세계를 인지하고 추론하기 위해 센서 데이터에 기반하는 경우가 늘어나고 있습니다. 그러나 이질적인 멀티모달 센서 데이터를 정확하게 해석하는 것은 여전히 근본적인 과제로 남아 있습니다. 본 연구에서는 단일 거대 LLM이 종종 여러 모달리티에 걸쳐 일관되게 추론하지 못하며, 이로 인해 불완전한 해석과 사전 지식 편향이 발생한다는 것을 보여줍니다. 이에 우리는 멀티모달 센싱 작업을 전문화되고 모달리티를 인식하는 에이전트들로 분해하는, 훈련이 필요 없는 다중 에이전트 협업 프레임워크인 ConSensus를 제안합니다. 에이전트 수준의 해석을 종합하기 위해, 교차 모달 추론과 맥락적 이해를 가능하게 하는 '의미적 통합'과 모달리티 간의 일치를 통해 강건성을 제공하는 '통계적 합의'의 균형을 맞추는 하이브리드 융합 메커니즘을 제안합니다. 각 접근 방식은 상호 보완적인 실패 양상을 보이지만, 이들의 결합은 센서 노이즈와 데이터 누락 상황에서도 신뢰할 수 있는 추론을 가능하게 합니다. 5가지의 다양한 멀티모달 센싱 벤치마크에서 ConSensus를 평가한 결과, 단일 에이전트 베이스라인 대비 평균 7.1%의 정확도 향상을 입증했습니다. 또한 ConSensus는 단일 라운드 하이브리드 융합 프로토콜을 통해 반복적인 다중 에이전트 토론 방식의 성능과 대등하거나 이를 능가하면서도 평균 융합 토큰 비용을 12.7배 절감하여, 실제 멀티모달 센싱 작업을 위한 강건하고 효율적인 솔루션을 제공합니다.

Original Abstract

Large language models (LLMs) are increasingly grounded in sensor data to perceive and reason about human physiology and the physical world. However, accurately interpreting heterogeneous multimodal sensor data remains a fundamental challenge. We show that a single monolithic LLM often fails to reason coherently across modalities, leading to incomplete interpretations and prior-knowledge bias. We introduce ConSensus, a training-free multi-agent collaboration framework that decomposes multimodal sensing tasks into specialized, modality-aware agents. To aggregate agent-level interpretations, we propose a hybrid fusion mechanism that balances semantic aggregation, which enables cross-modal reasoning and contextual understanding, with statistical consensus, which provides robustness through agreement across modalities. While each approach has complementary failure modes, their combination enables reliable inference under sensor noise and missing data. We evaluate ConSensus on five diverse multimodal sensing benchmarks, demonstrating an average accuracy improvement of 7.1% over the single-agent baseline. Furthermore, ConSensus matches or exceeds the performance of iterative multi-agent debate methods while achieving a 12.7 times reduction in average fusion token cost through a single-round hybrid fusion protocol, yielding a robust and efficient solution for real-world multimodal sensing tasks.

0 Citations
0 Influential
17.5 Altmetric
87.5 Score

AI Analysis

Korean Summary

이 논문은 대규모 언어 모델(LLM)을 활용한 멀티모달 센싱 작업에서 단일 모델이 겪는 문맥 과부하와 사전 지식 편향 문제를 해결하기 위해 'ConSensus'라는 훈련이 필요 없는(training-free) 멀티 에이전트 협업 프레임워크를 제안합니다. ConSensus는 복잡한 센싱 작업을 개별 센서 유형별로 전문화된 '모달리티 에이전트'로 분해하여 해석하고, 이를 '하이브리드 퓨전 메커니즘'을 통해 통합합니다. 하이브리드 퓨전은 문맥적 추론을 강조하는 '의미론적 융합(Semantic Fusion)'과 다수결 합의를 통해 편향을 억제하는 '통계적 융합(Statistical Fusion)'의 균형을 맞추는 조정자(Coordinator) 역할을 수행합니다. 실험 결과, 이 방식은 단일 에이전트 대비 평균 7.1%의 정확도 향상을 보였으며, 반복적인 토론 기반의 기존 멀티 에이전트 방식보다 토큰 비용을 12.7배 절감하면서도 동등하거나 더 우수한 성능을 입증했습니다.

Key Innovations

  • 센서 유형별로 독립적인 해석을 수행하는 '모달리티 인식 에이전트(Modality-Aware Agents)' 구조
  • LLM의 의미론적 추론과 통계적 다수결 합의의 장점을 결합한 '하이브리드 퓨전(Hybrid Fusion)' 전략
  • 반복적인 토론 과정(Iterative Debate)을 제거하고 단일 라운드 퓨전 프로토콜을 사용하여 추론 비용(토큰 사용량)을 획기적으로 절감
  • 센서 데이터 누락이나 노이즈 상황에서도 강건성을 유지하는 의사결정 프레임워크

Learning & Inference Impact

학습 측면에서는 별도의 모델 훈련이나 파인튜닝이 필요 없는 프롬프트 엔지니어링 기반의 접근법을 취하여 배포 용이성을 극대화했습니다. 추론 측면에서는 여러 에이전트를 사용함에도 불구하고, 기존의 최신 멀티 에이전트 토론 방식들이 겪는 높은 계산 비용(토큰 소모) 문제를 해결했습니다. 단일 라운드 구조를 통해 추론 속도와 비용 효율성을 높였으며, 개별 센서 에이전트의 해석을 통해 결과에 대한 설명력(Interpretability)을 제공하고 센서 결함(Missing Modality)에 대한 내성을 크게 강화했습니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!