GTA-2: 원자적 도구 사용부터 개방형 워크플로우까지, 범용 도구 에이전트의 성능 벤치마킹
GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows
범용 에이전트 개발은 단순한 명령어 실행에서 벗어나 복잡하고 실제적인 업무 워크플로우를 완료하는 방향으로 전환되어야 합니다. 그러나 현재의 도구 사용 벤치마크는 여전히 실제 요구 사항과 일치하지 않으며, AI가 생성한 쿼리, 가짜 도구, 제한적인 시스템 수준의 조정을 사용합니다. 이러한 문제를 해결하기 위해, 우리는 원자적 도구 사용부터 개방형 워크플로우까지 범위를 포괄하는 범용 도구 에이전트(GTA)를 위한 계층적 벤치마크인 GTA-2를 제안합니다. GTA-2는 실제 사용자의 쿼리, 실제 배포된 도구, 그리고 다중 모드 컨텍스트를 활용하여 현실성을 반영합니다. (i) GTA-Atomic은 이전 GTA 벤치마크에서 이어받아, 단기적인 목표를 가진 폐쇄형 도구 사용의 정확성을 평가합니다. (ii) GTA-Workflow는 장기적인 목표를 가진 개방형 작업을 도입하여, 실제적인 엔드투엔드 완료를 평가합니다. 개방형 결과물의 평가를 위해, 우리는 목표를 검증 가능한 하위 목표로 분해하는 재귀적인 체크포인트 기반 평가 메커니즘을 제안합니다. 이를 통해 모델의 능력과 에이전트 실행 프레임워크(실행 환경)를 통합적으로 평가할 수 있습니다. 실험 결과, 상당한 성능 격차가 나타났습니다. 최첨단 모델은 이미 원자적인 작업에서 어려움을 겪고 있으며(50% 미만), 워크플로우에서는 더욱 심각한 문제(최고 모델의 성공률 14.39%)를 보입니다. 추가 분석 결과, 체크포인트 기반 피드백은 성능 향상에 기여하는 것으로 나타났으며, Manus 및 OpenClaw와 같은 고급 프레임워크는 워크플로우 완료를 크게 향상시켜, 모델의 잠재력 외에도 실행 환경 설계의 중요성을 강조합니다. 이러한 결과는 신뢰할 수 있는 개인 및 전문 비서 개발에 대한 지침을 제공합니다. 데이터셋 및 코드는 https://github.com/open-compass/GTA에서 확인할 수 있습니다.
The development of general-purpose agents requires a shift from executing simple instructions to completing complex, real-world productivity workflows. However, current tool-use benchmarks remain misaligned with real-world requirements, relying on AI-generated queries, dummy tools, and limited system-level coordination. To address this, we propose GTA-2, a hierarchical benchmark for General Tool Agents (GTA) spanning atomic tool use and open-ended workflows. Built on real-world authenticity, it leverages real user queries, deployed tools, and multimodal contexts. (i) GTA-Atomic, inherited from our prior GTA benchmark, evaluates short-horizon, closed-ended tool-use precision. (ii) GTA-Workflow introduces long-horizon, open-ended tasks for realistic end-to-end completion. To evaluate open-ended deliverables, we propose a recursive checkpoint-based evaluation mechanism that decomposes objectives into verifiable sub-goals, enabling unified evaluation of both model capabilities and agent execution frameworks (i.e., execution harnesses). Experiments reveal a pronounced capability cliff: while frontier models already struggle on atomic tasks (below 50%), they largely fail on workflows, with top models achieving only 14.39% success. Further analysis shows that checkpoint-guided feedback improves performance, while advanced frameworks such as Manus and OpenClaw substantially enhance workflow completion, highlighting the importance of execution harness design beyond the underlying model capacity. These findings provide guidance for developing reliable personal and professional assistants. Dataset and code will be available at https://github.com/open-compass/GTA.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.