2601.02854v1 Jan 06, 2026 cs.AI

M3MAD-Bench: 다중 에이전트 토론은 도메인과 모달리티 전반에서 과연 효과적인가?

M3MAD-Bench: Are Multi-Agent Debates Really Effective Across Domains and Modalities?

Jinghui Zhang
Jinghui Zhang
Citations: 6
h-index: 1
Luyu Li
Luyu Li
Citations: 2
h-index: 1
Yuxiang Duan
Yuxiang Duan
Citations: 3
h-index: 1
Lang Gao
Lang Gao
Citations: 29
h-index: 2
Mingcai Chen
Mingcai Chen
Citations: 268
h-index: 8
Lizhen Cui
Lizhen Cui
Citations: 74
h-index: 3
Xiuying Chen
Xiuying Chen
Citations: 98
h-index: 6
Yuntao Du
Yuntao Du
Citations: 2
h-index: 1
Aonian Li
Aonian Li
Citations: 328
h-index: 2
Weijun Qin
Weijun Qin
Citations: 39
h-index: 4
Shaopeng Li
Shaopeng Li
Citations: 128
h-index: 4
Fengxian Ji
Fengxian Ji
Citations: 20
h-index: 2
Ning Liu
Ning Liu
Citations: 29
h-index: 2

에이전트 수준의 추론 및 조정 패러다임으로서, 다중 에이전트 토론(Multi-Agent Debate, MAD)은 구조화된 토론을 통해 여러 에이전트를 조율하여 답변 품질을 향상시키고 복잡한 추론을 지원한다. 그러나 기존의 MAD 연구는 두 가지 근본적인 한계를 가지고 있다. 첫째, 평가는 파편화되고 일관성 없는 설정에서 수행되어 공정한 비교를 방해하며, 둘째, 주로 텍스트 입력에만 의존하는 단일 모달리티 시나리오에 크게 제한되어 있다는 점이다. 이러한 문제를 해결하기 위해, 우리는 다중 도메인 작업, 멀티모달 입력, 다차원적 지표 전반에 걸쳐 MAD 방법을 평가하기 위한 통합적이고 확장 가능한 벤치마크인 M3MAD-Bench를 소개한다. M3MAD-Bench는 지식, 수학, 의학, 자연과학, 복잡한 추론의 5가지 핵심 작업 도메인에 대한 표준화된 프로토콜을 수립하고, 순수 텍스트 및 비전-언어 데이터셋을 체계적으로 포괄하여 통제된 교차 모달리티 비교를 가능하게 한다. 우리는 서로 다른 아키텍처, 규모, 모달리티 역량을 아우르는 9개의 기반 모델에 대해 MAD 방법을 평가한다. 정확도 외에도, M3MAD-Bench는 토큰 소비량 및 추론 시간과 같은 효율성 지향 지표를 포함하여 성능-비용 트레이드오프에 대한 종합적인 관점을 제공한다. 광범위한 실험을 통해 텍스트 전용 및 멀티모달 시나리오 전반에서 MAD의 효과성, 견고성, 효율성에 대한 체계적인 통찰력을 도출한다. 우리는 M3MAD-Bench가 표준화된 MAD 평가에 대한 향후 연구를 위한 신뢰할 수 있는 기반을 제공한다고 믿는다. 코드는 http://github.com/liaolea/M3MAD-Bench 에서 확인할 수 있다.

Original Abstract

As an agent-level reasoning and coordination paradigm, Multi-Agent Debate (MAD) orchestrates multiple agents through structured debate to improve answer quality and support complex reasoning. However, existing research on MAD suffers from two fundamental limitations: evaluations are conducted under fragmented and inconsistent settings, hindering fair comparison, and are largely restricted to single-modality scenarios that rely on textual inputs only. To address these gaps, we introduce M3MAD-Bench, a unified and extensible benchmark for evaluating MAD methods across Multi-domain tasks, Multi-modal inputs, and Multi-dimensional metrics. M3MAD-Bench establishes standardized protocols over five core task domains: Knowledge, Mathematics, Medicine, Natural Sciences, and Complex Reasoning, and systematically covers both pure text and vision-language datasets, enabling controlled cross-modality comparison. We evaluate MAD methods on nine base models spanning different architectures, scales, and modality capabilities. Beyond accuracy, M3MAD-Bench incorporates efficiency-oriented metrics such as token consumption and inference time, providing a holistic view of performance--cost trade-offs. Extensive experiments yield systematic insights into the effectiveness, robustness, and efficiency of MAD across text-only and multimodal scenarios. We believe M3MAD-Bench offers a reliable foundation for future research on standardized MAD evaluation. The code is available at http://github.com/liaolea/M3MAD-Bench.

1 Citations
0 Influential
32.95879734614 Altmetric
165.8 Score
Original PDF
5

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!