TeamBench: 강제된 역할 분리를 통한 에이전트 협업 평가
TeamBench: Evaluating Agent Coordination under Enforced Role Separation
에이전트 시스템은 종종 여러 역할로 작업을 분담하지만, 이러한 역할은 일반적으로 접근 제어보다는 프롬프트로 지정되는 경우가 많습니다. 강제 장치 없이 팀의 성공률은 에이전트가 실제로 협업했는지, 아니면 하나의 역할이 다른 역할의 일을 대신 수행했는지를 가리고 있습니다. 본 논문에서는 운영 체제에서 강제하는 역할 분리를 통해 에이전트 협업을 평가하기 위한 벤치마크인 TeamBench를 소개합니다. TeamBench는 851개의 작업 템플릿과 931개의 초기화된 인스턴스를 포함하며, Planner, Executor, Verifier 역할 간에 요구 사항 접근, 작업 공간 편집, 최종 인증을 분리하여 어떤 역할도 전체 요구 사항을 읽거나 작업 공간을 수정하거나 최종 답변을 인증할 수 없도록 합니다. 프롬프트만 사용하거나 샌드박스 제어를 사용하는 팀은 통계적으로 차이가 없는 성공률을 보이지만, 프롬프트만 사용하는 경우 검증기가 실행기의 코드를 편집하려고 시도하는 경우가 3.6배 더 많습니다. 검증기는 결정적인 평가에서 실패하는 제출물의 49%를 승인하며, 검증기를 제거하면 부분 점수의 평균이 향상됩니다. 팀의 가치 또한 조건적입니다. 개별 에이전트가 어려움을 겪을 때 팀은 유용하지만, 개별 에이전트가 이미 잘 수행할 때는 오히려 방해가 될 수 있습니다. 동일한 역할 분리를 적용한 40세션의 인간 연구 결과, 본 벤치마크는 성공률만으로는 파악할 수 없는 상호 작용 패턴을 드러냅니다. 개인 참가자는 작업을 직접 수행하는 반면, 에이전트와 함께하는 인간 참가자는 종종 빠르게 승인하는 경향을 보이며, 인간 팀은 역할 간에 누락된 정보를 조정하는 데 더 많은 노력을 기울입니다.
Agent systems often decompose a task across multiple roles, but these roles are typically specified by prompts rather than enforced by access controls. Without enforcement, a team pass rate can mask whether agents actually coordinated or whether one role effectively did another role's work. We present TeamBench, a benchmark with 851 task templates and 931 seeded instances for evaluating agent coordination under operating system-enforced role separation. TeamBench separates specification access, workspace editing, and final certification across Planner, Executor, and Verifier roles, so that no role can read the full requirements, modify the workspace, and certify the final answer. Prompt-only and sandbox-enforced teams reach statistically indistinguishable pass rates, but prompt-only runs produce 3.6 times more cases where the verifier attempts to edit the executor's code. Verifiers approve 49% of submissions that fail the deterministic grader, and removing the verifier improves mean partial score in the ablation. Team value is also conditional. Teams benefit when single agents struggle, but hurt when single agents already perform well. A 40-session human study under the same role separation shows that our benchmark exposes interaction patterns that pass rate misses. Solo participants work through the task directly, human participants paired with agents often collapse into quick approval, and human teams spend more effort coordinating missing information across roles.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.