인컨텍스트 상대 플레이어 추론을 통한 다중 에이전트 협력
Multi-agent cooperation through in-context co-player inference
이기적인 에이전트 간의 협력을 이끌어내는 것은 다중 에이전트 강화학습에서 여전히 근본적인 과제입니다. 최근 연구에 따르면 상대 플레이어의 학습 다이내믹스를 고려하고 이를 형성하는 '학습 인지(learning-aware)' 에이전트 사이에서 상호 협력이 유도될 수 있음이 밝혀졌습니다. 그러나 기존 접근 방식은 대개 상대 플레이어의 학습 규칙에 대해 하드코딩되고 종종 일관성이 없는 가정에 의존하거나, 빠른 시간 척도에서 업데이트하는 '단순 학습자'와 이러한 업데이트를 관찰하는 '메타 학습자' 간의 엄격한 분리를 강제합니다. 본 연구에서는 시퀀스 모델의 인컨텍스트 학습 능력을 통해 하드코딩된 가정이나 명시적인 시간 척도 분리 없이도 상대 플레이어의 학습을 인지할 수 있음을 증명합니다. 우리는 다양한 분포의 상대 플레이어를 상대로 시퀀스 모델 에이전트를 훈련시키면 인컨텍스트 최적 대응 전략이 자연스럽게 유도되며, 이는 빠른 에피소드 내 시간 척도에서 학습 알고리즘으로서 효과적으로 기능함을 보여줍니다. 또한 선행 연구에서 확인된 협력 메커니즘, 즉 갈취(extortion)에 대한 취약성이 상호 형성을 촉진하는 현상이 이러한 설정에서 자연스럽게 나타남을 발견했습니다. 구체적으로, 인컨텍스트 적응은 에이전트를 갈취에 취약하게 만들며, 이에 따라 상대방의 인컨텍스트 학습 다이내믹스를 형성하려는 상호 압력이 협력적 행동의 학습으로 귀결됩니다. 우리의 결과는 상대 플레이어의 다양성과 결합된 시퀀스 모델 기반의 표준 분산 강화학습이 협력적 행동을 학습하는 확장 가능한 경로를 제공함을 시사합니다.
Achieving cooperation among self-interested agents remains a fundamental challenge in multi-agent reinforcement learning. Recent work showed that mutual cooperation can be induced between "learning-aware" agents that account for and shape the learning dynamics of their co-players. However, existing approaches typically rely on hardcoded, often inconsistent, assumptions about co-player learning rules or enforce a strict separation between "naive learners" updating on fast timescales and "meta-learners" observing these updates. Here, we demonstrate that the in-context learning capabilities of sequence models allow for co-player learning awareness without requiring hardcoded assumptions or explicit timescale separation. We show that training sequence model agents against a diverse distribution of co-players naturally induces in-context best-response strategies, effectively functioning as learning algorithms on the fast intra-episode timescale. We find that the cooperative mechanism identified in prior work-where vulnerability to extortion drives mutual shaping-emerges naturally in this setting: in-context adaptation renders agents vulnerable to extortion, and the resulting mutual pressure to shape the opponent's in-context learning dynamics resolves into the learning of cooperative behavior. Our results suggest that standard decentralized reinforcement learning on sequence models combined with co-player diversity provides a scalable path to learning cooperative behaviors.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.