MEMO: 메모리 기반 모델 컨텍스트 최적화를 통한 강력한 다중 턴 다중 에이전트 LLM 게임 성능 향상
MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games
다중 턴, 다중 에이전트 LLM 게임 평가는 종종 상당한 실행 간 변동성을 보입니다. 장기 상호 작용에서, 초기 단계의 작은 변화는 턴을 거듭하면서 누적되고 다중 에이전트 간의 상호 작용으로 인해 증폭됩니다. 이는 승률 추정치를 왜곡하고 반복적인 토너먼트에서의 순위 신뢰성을 떨어뜨립니다. 프롬프트 선택은 다양한 정책을 생성하여 이러한 문제를 더욱 악화시킵니다. 우리는 MEMO (메모리 기반 모델 컨텍스트 최적화)라는 자체 학습 프레임워크를 통해 이러한 불안정성과 성능 저하 문제를 해결합니다. MEMO는 추론 시간 컨텍스트를 최적화하기 위해 저장 및 탐색을 결합합니다. 저장(Retention)은 자체 학습 경로에서 얻은 구조화된 정보를 지속적인 메모리 뱅크에 저장하고, 이후 플레이 과정에서 이를 사전 지식으로 활용합니다. 탐색(Exploration)은 불확실성을 고려한 선택(TrueSkill)을 통해 토너먼트 스타일의 프롬프트 진화를 수행하고, 우선순위 기반 리플레이를 사용하여 드물지만 결정적인 상태를 재방문합니다. 텍스트 기반 게임 5가지에 대해, MEMO는 GPT-4o-mini의 평균 승률을 25.1%에서 49.5%로, Qwen-2.5-7B-Instruct의 평균 승률을 20.9%에서 44.3%로 향상시켰습니다. 이를 위해 각 작업당 $2,000$번의 자체 학습을 진행했습니다. 또한, 실행 간 변동성이 감소하여 프롬프트 변형에 따른 더 안정적인 순위를 얻을 수 있었습니다. 이러한 결과는 다중 에이전트 LLM 게임의 성능과 안정성을 컨텍스트 최적화를 통해 크게 향상시킬 수 있음을 시사합니다. MEMO는 협상 및 불완전 정보 게임에서 가장 큰 성능 향상을 보였으며, 강화 학습은 여전히 완전 정보 환경에서 더 효과적입니다.
Multi-turn, multi-agent LLM game evaluations often exhibit substantial run-to-run variance. In long-horizon interactions, small early deviations compound across turns and are amplified by multi-agent coupling. This biases win rate estimates and makes rankings unreliable across repeated tournaments. Prompt choice worsens this further by producing different effective policies. We address both instability and underperformance with MEMO (Memory-augmented MOdel context optimization), a self-play framework that optimizes inference-time context by coupling retention and exploration. Retention maintains a persistent memory bank that stores structured insights from self-play trajectories and injects them as priors during later play. Exploration runs tournament-style prompt evolution with uncertainty-aware selection via TrueSkill, and uses prioritized replay to revisit rare and decisive states. Across five text-based games, MEMO raises mean win rate from 25.1% to 49.5% for GPT-4o-mini and from 20.9% to 44.3% for Qwen-2.5-7B-Instruct, using $2,000$ self-play games per task. Run-to-run variance also drops, giving more stable rankings across prompt variations. These results suggest that multi-agent LLM game performance and robustness have substantial room for improvement through context optimization. MEMO achieves the largest gains in negotiation and imperfect-information games, while RL remains more effective in perfect-information settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.