CONSCIENTIA: LLM 에이전트가 전략적 행동을 학습할 수 있는가? 다중 에이전트 뉴욕 시뮬레이션에서 나타나는 기만과 신뢰
CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation
대규모 언어 모델(LLM)이 자율 에이전트로 점점 더 많이 사용됨에 따라, 다중 에이전트 환경에서 전략적 행동이 어떻게 나타나는지를 이해하는 것은 중요한 정렬 문제로 대두되었습니다. 본 연구에서는 중립적인 경험적 관점에서 전략적 행동을 직접 관찰하고 측정할 수 있는 통제된 환경을 구축했습니다. 본 연구는 단순화된 뉴욕 시 모델에서 LLM 기반 에이전트들이 상반된 동기 하에 상호 작용하는 대규모 다중 에이전트 시뮬레이션을 소개합니다. 블루 에이전트는 목적지까지 효율적으로 이동하는 것을 목표로 하고, 레드 에이전트는 설득적인 언어를 사용하여 광고 수익을 극대화하기 위해 블루 에이전트를 광고판이 많은 경로로 유도하려고 합니다. 숨겨진 신분으로 인해 탐색은 사회적으로 매개되며, 에이전트는 언제 신뢰하거나 속일지 결정해야 합니다. 본 연구는 칸네만-트베르스키 최적화(KTO)를 사용하여 반복적인 상호 작용 라운드에서 에이전트 정책을 업데이트하는 반복적인 시뮬레이션 파이프라인을 통해 정책 학습을 연구합니다. 블루 에이전트는 탐색 효율성을 유지하면서 광고판 노출을 줄이는 데 최적화되고, 레드 에이전트는 남아있는 약점을 악용하도록 적응합니다. 반복을 거듭하면서, 가장 우수한 블루 에이전트 정책은 작업 성공률을 46.0%에서 57.3%로 향상시켰지만, 여전히 70.7%의 높은 취약성을 보입니다. 후속 정책은 경로 효율성을 유지하면서 더 강력한 선택적 협력을 나타냅니다. 그러나 지속적인 안전성-유용성 균형 문제가 남아 있습니다. 적대적인 조종에 더 잘 저항하는 정책이 동시에 작업 완료를 극대화하지는 않습니다. 전반적으로, 본 연구 결과는 LLM 에이전트가 선택적 신뢰 및 기만과 같은 제한적인 전략적 행동을 나타낼 수 있지만, 여전히 적대적인 설득에 매우 취약하다는 것을 보여줍니다.
As large language models (LLMs) are increasingly deployed as autonomous agents, understanding how strategic behavior emerges in multi-agent environments has become an important alignment challenge. We take a neutral empirical stance and construct a controlled environment in which strategic behavior can be directly observed and measured. We introduce a large-scale multi-agent simulation in a simplified model of New York City, where LLM-driven agents interact under opposing incentives. Blue agents aim to reach their destinations efficiently, while Red agents attempt to divert them toward billboard-heavy routes using persuasive language to maximize advertising revenue. Hidden identities make navigation socially mediated, forcing agents to decide when to trust or deceive. We study policy learning through an iterative simulation pipeline that updates agent policies across repeated interaction rounds using Kahneman-Tversky Optimization (KTO). Blue agents are optimized to reduce billboard exposure while preserving navigation efficiency, whereas Red agents adapt to exploit remaining weaknesses. Across iterations, the best Blue policy improves task success from 46.0% to 57.3%, although susceptibility remains high at 70.7%. Later policies exhibit stronger selective cooperation while preserving trajectory efficiency. However, a persistent safety-helpfulness trade-off remains: policies that better resist adversarial steering do not simultaneously maximize task completion. Overall, our results show that LLM agents can exhibit limited strategic behavior, including selective trust and deception, while remaining highly vulnerable to adversarial persuasion.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.