CooperBench: 코딩 에이전트가 아직 당신의 팀원이 될 수 없는 이유
CooperBench: Why Coding Agents Cannot be Your Teammates Yet
팀 내 갈등 해결에는 작업 관련 역량뿐만 아니라 공통점을 찾고 합의를 이끌어내는 사회적 지능이 필요합니다. 인공지능 에이전트가 복잡한 작업을 수행하면서 협업하는 빈도가 증가함에 따라, 효과적인 팀원으로 기능하기 위한 조정 능력을 개발해야 합니다. 그러나 현재 에이전트는 이러한 능력이 부족할 것이라고 가정합니다. 이를 검증하기 위해, 우리는 12개의 라이브러리에 걸쳐 4개의 프로그래밍 언어로 구성된 600개 이상의 협업 코딩 작업을 포함하는 벤치마크인 CooperBench를 소개합니다. 각 작업은 두 에이전트에게 서로 독립적으로 구현할 수 있지만 적절한 조정 없이는 충돌할 수 있는 다양한 기능을 할당합니다. 작업은 실제 오픈 소스 저장소에 기반하며, 전문가가 작성한 테스트를 포함합니다. 최첨단 코딩 에이전트를 평가한 결과, 조정의 어려움(curse of coordination)을 확인했습니다. 에이전트가 함께 작업할 때, 개별적으로 각 작업을 수행하는 경우에 비해 평균적으로 성공률이 30% 낮았습니다. 이는 인간 팀의 경우, 팀원을 추가하면 일반적으로 생산성이 향상되는 것과는 대조적입니다. 분석 결과, 세 가지 주요 문제가 확인되었습니다. (1) 커뮤니케이션 채널이 모호하고 시기가 맞지 않으며 부정확한 메시지로 인해 혼잡해집니다. (2) 효과적인 커뮤니케이션이 이루어지더라도, 에이전트는 약속을 지키지 않습니다. (3) 에이전트는 종종 다른 에이전트의 계획 및 커뮤니케이션에 대해 잘못된 기대를 갖습니다. 대규모 시뮬레이션을 통해 역할 분담, 자원 분배 및 협상과 같은 드물지만 흥미로운 자기 조직화(emergent coordination) 행동도 관찰했습니다. 본 연구는 협업 코딩을 위한 새로운 벤치마크를 제시하며, 개별 에이전트의 역량 향상보다는 사회적 지능 개발에 대한 관심을 촉구합니다.
Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.