합의의 함정: 토큰 수준의 협력을 통해 다중 에이전트 LLM을 적대적인 다수로부터 구원
The Consensus Trap: Rescuing Multi-Agent LLMs from Adversarial Majorities via Token-Level Collaboration
다중 에이전트 대규모 언어 모델(LLM) 아키텍처는 추론 능력을 향상시키기 위해 다수 투표(MAJ)와 같은 응답 수준의 집계를 점점 더 많이 사용하고 있습니다. 그러나 개방형 환경에서 에이전트는 표적 프롬프트 주입과 같은 은밀한 맥락 오염에 매우 취약합니다. 본 연구에서는 현재 다중 에이전트 시스템의 중요한 구조적 취약점을 밝혀냅니다. 즉, 응답 수준의 집계는 오염된 에이전트가 지역적인 다수를 형성할 때 붕괴됩니다. 투표는 완성된 결론을 집계하기 때문에, 결함이 있는 중간 논리에 대해 맹목적입니다. 이러한 체계적인 한계를 극복하기 위해, 우리는 토큰 수준의 순환 협력(RR Collaboration) 방식을 제안합니다. 이 방식에서 에이전트들은 공유된 자기 회귀 컨텍스트 내에서 순차적으로 텍스트를 생성합니다. 우리는 이 과정을 이산 시간 동적 시스템으로 공식화하고, 토큰 수준의 교차가 집계를 최종 투표의 취약한 계산(선형 합)에서 동적이고 복잡하게 얽힌 논리 체인(비선형 연산자 곱)으로 변환함을 증명합니다. 이러한 이론적 관점에서, 우리는 정직한 모델의 복원력이 적대적인 오염을 극복할 수 있음을 증명하며, 심지어 오염된 에이전트가 다수를 형성하는 경우에도 가능합니다. 우리는 다양한 추론 벤치마크에서 광범위한 실험적 평가를 수행하고, MAJ가 오염된 에이전트가 다수를 형성할 때 붕괴되는 반면, RR은 이 중요한 임계값을 훨씬 넘어 견고한 정확도를 유지한다는 것을 입증합니다.
Multi-agent large language model (LLM) architectures increasingly rely on response-level aggregation, such as Majority Voting (MAJ), to raise reasoning ceilings. However, in open environments, agents are highly susceptible to stealthy contextual corruption, such as targeted prompt injections. We reveal a critical structural vulnerability in current multi-agent systems: response-level aggregation collapses when corrupted agents form a local majority. Because voting aggregates fully-formed conclusions, it is blind to flawed intermediate logic. To overcome this systematic limitation, we propose the Token-Level Round-Robin (RR) Collaboration, where agents sequentially interleave generation within a shared auto-regressive context. We formalize this process as a discrete-time dynamical system, proving that token-level interleaving transitions aggregation from a brittle counting of final votes (a linear sum) to a dynamic, interwoven chain of logic (a non-linear operator product). Through this theoretical lens, we prove that the honest model's restorative pull can overpower adversarial corruptions, even when corrupted agents form a majority. We conduct an exhaustive empirical evaluation across diverse reasoning benchmarks and demonstrate that while MAJ collapses when corrupted agents reach a majority, RR maintains robust accuracy well beyond this critical threshold.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.