CoopEval: 협력 유지를 위한 메커니즘 및 LLM 에이전트의 성능 평가 연구 - 사회적 딜레마 환경
CoopEval: Benchmarking Cooperation-Sustaining Mechanisms and LLM Agents in Social Dilemmas
최근 연구들은 LLM 에이전트가 다른 목표 지향 에이전트와 효과적으로 안전하게 상호 작용하는 것이 중요해지고 있지만, 일부 연구 결과는 반대되는 경향을 보여줍니다. 즉, 추론 능력이 더 뛰어난 LLM이 죄수의 딜레마와 같은 혼합 동기 게임 및 공공재 환경에서 _덜_ 협력적인 행동을 보이는 것입니다. 실제로, 우리의 실험 결과는 최신 모델들이 추론 기능 사용 여부에 관계없이 단일 라운드의 사회적 딜레마 상황에서 지속적으로 배신하는 경향을 보인다는 것을 보여줍니다. 이러한 안전 문제를 해결하기 위해, 우리는 합리적인 에이전트 간의 협력적인 결과를 _균형 상태_에서 가능하게 하는 게임 이론적 메커니즘에 대한 최초의 비교 연구를 제시합니다. 견고한 협력의 다양한 측면을 테스트하는 네 가지 사회적 딜레마 환경에서, 우리는 다음과 같은 메커니즘을 평가했습니다: (1) 게임을 여러 라운드 반복, (2) 평판 시스템, (3) 의사 결정 권한을 위임할 수 있는 제3자 중재자, (4) 결과에 따라 플레이어 간에 결제하는 계약. 우리의 연구 결과에서, 계약 및 중재가 유능한 LLM 모델 간의 협력적인 결과를 달성하는 데 가장 효과적이며, 게임 반복으로 인한 협력은 상대방 플레이어가 다양할 때 크게 저하된다는 것을 확인했습니다. 또한, 이러한 협력 메커니즘은 개별적인 보상을 극대화하기 위한 진화적 압력 하에서 _더욱 효과적_이 되는 것을 입증했습니다.
It is increasingly important that LLM agents interact effectively and safely with other goal-pursuing agents, yet, recent works report the opposite trend: LLMs with stronger reasoning capabilities behave _less_ cooperatively in mixed-motive games such as the prisoner's dilemma and public goods settings. Indeed, our experiments show that recent models -- with or without reasoning enabled -- consistently defect in single-shot social dilemmas. To tackle this safety concern, we present the first comparative study of game-theoretic mechanisms that are designed to enable cooperative outcomes between rational agents _in equilibrium_. Across four social dilemmas testing distinct components of robust cooperation, we evaluate the following mechanisms: (1) repeating the game for many rounds, (2) reputation systems, (3) third-party mediators to delegate decision making to, and (4) contract agreements for outcome-conditional payments between players. Among our findings, we establish that contracting and mediation are most effective in achieving cooperative outcomes between capable LLM models, and that repetition-induced cooperation deteriorates drastically when co-players vary. Moreover, we demonstrate that these cooperation mechanisms become _more effective_ under evolutionary pressures to maximize individual payoffs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.