다중 에이전트 LLM 추론 트리 감사는 다수결 투표 및 LLM-as-Judge를 능가한다
Auditing Multi-Agent LLM Reasoning Trees Outperforms Majority Vote and LLM-as-Judge
다중 에이전트 시스템(MAS)은 거대언어모델(LLM)의 추론 능력을 상당히 확장할 수 있지만, 대부분의 프레임워크는 여전히 다수결 투표를 통해 에이전트의 출력을 통합한다. 이러한 휴리스틱은 추론 과정의 증거적 구조를 무시하며, 에이전트들이 상관관계가 있는 편향을 공유하여 동일한 잘못된 근거로 수렴하는 '작화적 합의(confabulation consensus)'에 취약하다. 우리는 투표 방식을 에이전트 추론 과정 간의 일치와 분기를 명시적으로 나타내는 '추론 트리(Reasoning Tree)' 상의 경로 탐색으로 대체하는 AgentAuditor를 소개한다. AgentAuditor는 중요한 분기점에서 추론 가지(branch)들을 비교하여 충돌을 해결함으로써, 전역적인 판단 문제를 효율적인 국소적 검증으로 전환한다. 또한 우리는 다수결 실패 사례에 대해 심판 모델을 학습시키고, 다수가 범하는 오류보다 증거에 기반한 소수의 선택에 보상을 주는 반합의 선호 최적화(ACPO)를 제안한다. AgentAuditor는 MAS 설정에 구애받지 않으며, 5가지의 인기 있는 설정에서 실험한 결과 다수결 투표 대비 최대 5%, LLM-as-Judge 사용 대비 최대 3%의 절대 정확도 향상을 보였다.
Multi-agent systems (MAS) can substantially extend the reasoning capacity of large language models (LLMs), yet most frameworks still aggregate agent outputs with majority voting. This heuristic discards the evidential structure of reasoning traces and is brittle under the confabulation consensus, where agents share correlated biases and converge on the same incorrect rationale. We introduce AgentAuditor, which replaces voting with a path search over a Reasoning Tree that explicitly represents agreements and divergences among agent traces. AgentAuditor resolves conflicts by comparing reasoning branches at critical divergence points, turning global adjudication into efficient, localized verification. We further propose Anti-Consensus Preference Optimization (ACPO), which trains the adjudicator on majority-failure cases and rewards evidence-based minority selections over popular errors. AgentAuditor is agnostic to MAS setting, and we find across 5 popular settings that it yields up to 5% absolute accuracy improvement over a majority vote, and up to 3% over using LLM-as-Judge.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.