진실을 이용한 기만: 생성적 조립을 통한 다중 에이전트의 공개 채널 기반 협력 공격으로의 신념 조작
Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage
대규모 언어 모델(LLM)이 실시간 정보를 합성하는 자율 에이전트로 진화함에 따라, 모델의 추론 능력은 예상치 못한 공격 경로를 제공합니다. 본 논문에서는, 은밀한 통신, 백도어 또는 위조된 문서에 의존하지 않고, 공개 채널을 통해 분산된 진실된 증거 조각만을 사용하여 공격 대상의 신념을 조작하는 새로운 위협을 제시합니다. LLM의 과도한 사고 경향을 악용하여, 우리는 최초의 인지적 협력 공격을 공식화하고, 적대적인 토론과 증거 조각의 조율된 게시를 통해 기만적인 내러티브를 구축하는 작가-편집자-감독 프레임워크인 Generative Montage를 제안합니다. 이러한 위험성을 연구하기 위해, 실제 사건에서 파생된 데이터셋인 CoPHEME를 개발하고, 다양한 LLM 패밀리를 대상으로 공격을 시뮬레이션했습니다. 연구 결과, 14개의 LLM 패밀리 모두에서 심각한 취약점이 발견되었으며, 독점 모델의 공격 성공률은 74.4%, 오픈 웨이트 모델의 공격 성공률은 70.6%에 달했습니다. 흥미롭게도, 추론 능력이 강할수록 취약성이 증가했으며, 추론에 특화된 모델이 기본 모델 또는 프롬프트 기반 모델보다 높은 공격 성공률을 보였습니다. 더욱이, 이러한 거짓 신념은 이후 판단자에게 전파되어 60% 이상의 속임수 성공률을 달성했으며, 이는 LLM 기반 에이전트가 동적 정보 환경과 상호 작용하는 방식에서 발생하는 사회-기술적 취약점을 보여줍니다. 구현 및 데이터는 다음 주소에서 확인할 수 있습니다: https://github.com/CharlesJW222/Lying_with_Truth/tree/main.
As large language models (LLMs) transition to autonomous agents synthesizing real-time information, their reasoning capabilities introduce an unexpected attack surface. This paper introduces a novel threat where colluding agents steer victim beliefs using only truthful evidence fragments distributed through public channels, without relying on covert communications, backdoors, or falsified documents. By exploiting LLMs' overthinking tendency, we formalize the first cognitive collusion attack and propose Generative Montage: a Writer-Editor-Director framework that constructs deceptive narratives through adversarial debate and coordinated posting of evidence fragments, causing victims to internalize and propagate fabricated conclusions. To study this risk, we develop CoPHEME, a dataset derived from real-world rumor events, and simulate attacks across diverse LLM families. Our results show pervasive vulnerability across 14 LLM families: attack success rates reach 74.4% for proprietary models and 70.6% for open-weights models. Counterintuitively, stronger reasoning capabilities increase susceptibility, with reasoning-specialized models showing higher attack success than base models or prompts. Furthermore, these false beliefs then cascade to downstream judges, achieving over 60% deception rates, highlighting a socio-technical vulnerability in how LLM-based agents interact with dynamic information environments. Our implementation and data are available at: https://github.com/CharlesJW222/Lying_with_Truth/tree/main.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.