논쟁에서 의사결정으로: 안전한 다중 에이전트 숙고를 위한 적응적 사회 선택
From Debate to Decision: Conformal Social Choice for Safe Multi-Agent Deliberation
다중 에이전트 논쟁은 LLM의 추론 능력을 향상시키지만, 에이전트 간의 합의가 반드시 정확성을 의미하는 것은 아닙니다. 에이전트들이 사회적 강화 과정을 통해 잘못된 답변에 도달할 경우, 합의 기반 중단 방식은 이러한 오류를 자동화된 행동으로 이어지게 하며, 이는 수정할 수 없는 결과를 초래합니다. 본 연구에서는 Conformal Social Choice라는 후처리 의사결정 계층을 제안합니다. 이 계층은 논쟁 결과를 '행동' 또는 '에스컬레이션(인간 개입)' 결정으로 변환합니다. 다양한 에이전트로부터 얻은 확률 분포를 선형 의견 통합 방식을 통해 집계하고, 분할 적응적 예측을 사용하여 보정함으로써, 예측 집합에 대해 경계 보장(marginal coverage guarantee)을 제공합니다. 즉, 올바른 답변이 포함될 확률은 ${ ext{≥}} ext{ }1 ext{-} ext{ }α$이며, 개별 모델의 정확도에 대한 가정이 필요하지 않습니다. 계층적 행동 정책은 단일 집합을 자율적인 행동으로, 더 큰 집합을 인간의 에스컬레이션으로 연결합니다. Claude Haiku, DeepSeek-R1, Qwen-3 32B 세 에이전트를 사용하여 구성된 8개의 MMLU-Pro 도메인에서, 실제 성능은 목표 값과 1~2 포인트 이내로 유지됩니다. 핵심적인 발견은 논쟁 자체가 더 정확해지는 것이 아니라, 적응적 계층이 오류를 수정 가능하게 만든다는 점입니다. 실제로 $α=0.05$일 때, 잘못된 합의에 해당하는 81.9%의 경우가 차단됩니다. 이 계층은 논쟁이 확신적으로 잘못된 경우에 행동하지 않기 때문에, 나머지 적응적 단일 결과는 90.0%에서 96.8%의 정확도를 달성합니다(합의 기반 중단 방식보다 최대 22.1pp 향상). 이는 추론 능력 향상이라기보다는 선택 효과에 가깝습니다. 이러한 안전성은 자동화의 감소를 수반하지만, $α$ 값을 조정하여 사용자 정의가 가능합니다.
Multi-agent debate improves LLM reasoning, yet agreement among agents is not evidence of correctness. When agents converge on a wrong answer through social reinforcement, consensus-based stopping commits that error to an automated action with no recourse. We introduce Conformal Social Choice, a post-hoc decision layer that converts debate outputs into calibrated act-versus-escalate decisions. Verbalized probability distributions from heterogeneous agents are aggregated via a linear opinion pool and calibrated with split conformal prediction, yielding prediction sets with a marginal coverage guarantee: the correct answer is included with probability ${\geq}\,1{-}α$, without assumptions on individual model calibration. A hierarchical action policy maps singleton sets to autonomous action and larger sets to human escalation. On eight MMLU-Pro domains with three agents (Claude Haiku, DeepSeek-R1, Qwen-3 32B), coverage stays within 1--2 points of the target. The key finding is not that debate becomes more accurate, but that the conformal layer makes its failures actionable: 81.9% of wrong-consensus cases are intercepted at $α{=}0.05$. Because the layer refuses to act on cases where debate is confidently wrong, the remaining conformal singletons reach 90.0--96.8% accuracy (up to 22.1pp above consensus stopping) -- a selection effect, not a reasoning improvement. This safety comes at the cost of automation, but the operating point is user-adjustable via $α$.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.