CRAFT: 부분 정보 환경에서의 기반 지식을 갖춘 다중 에이전트 협력
CRAFT: Grounded Multi-Agent Coordination Under Partial Information
본 논문에서는 제한된 정보 환경에서 대규모 언어 모델의 실용적인 의사소통 능력을 평가하기 위한 다중 에이전트 벤치마크인 CRAFT를 소개합니다. 이 환경에서, 서로 보완적이지만 불완전한 정보를 가진 여러 에이전트는 자연어 기반 의사소통을 통해 단일 에이전트가 완전히 관찰할 수 없는 공유 3D 구조를 구축해야 합니다. 우리는 이 문제를 다중 송신자의 실용적 추론 문제로 공식화하고, 공간적 기반 지식, 믿음 모델링 및 실용적 의사소통 오류로 인한 실패 요인을 분해하는 진단 프레임워크를 제공합니다. 또한, 개방형 모델과 최첨단 모델(추론 모델 포함)을 포함한 다양한 모델들을 대상으로 실험한 결과, 더 강력한 추론 능력이 반드시 더 나은 협력으로 이어지지 않는다는 것을 확인했습니다. 특히, 작은 개방형 모델이 최첨단 시스템과 동등하거나 더 나은 성능을 보이는 경우가 많았으며, 개별적인 의사소통 능력 향상이 반드시 성공적인 협력을 보장하지는 않는다는 것을 알 수 있었습니다. 이러한 결과는 다중 에이전트 협력이 현재의 언어 모델에게 여전히 근본적인 해결 과제임을 시사합니다. 저희의 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/csu-signal/CRAFT
We introduce CRAFT, a multi-agent benchmark for evaluating pragmatic communication in large language models under strict partial information. In this setting, multiple agents with complementary but incomplete views must coordinate through natural language to construct a shared 3D structure that no single agent can fully observe. We formalize this problem as a multi-sender pragmatic reasoning task and provide a diagnostic framework that decomposes failures into spatial grounding, belief modeling and pragmatic communication errors, including a taxonomy of behavioral failure profiles in both frontier and open-weight models. Across a diverse set of models, including 8 open-weight and 7 frontier including reasoning models, we find that stronger reasoning ability does not reliably translate to better coordination: smaller open-weight models often match or outperform frontier systems, and improved individual communication does not guarantee successful collaboration. These results suggest that multi-agent coordination remains a fundamentally unsolved challenge for current language models. Our code can be found at https://github.com/csu-signal/CRAFT
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.