범용 에이전트 평가
General Agent Evaluation
범용 에이전트, 즉 특정 도메인 지식 없이도 익숙하지 않은 환경에서 작업을 수행하는 시스템의 가능성은 아직 실현되지 않았습니다. 기존 에이전트는 대부분 특정 작업에 특화되어 있으며, OpenAI SDK Agent 및 Claude Code와 같은 새로운 구현 방식들이 더 넓은 기능을 암시하지만, 이러한 에이전트의 일반적인 성능에 대한 체계적인 평가는 이루어지지 않았습니다. 현재 에이전트 평가 벤치마크는 특정 도메인에 통합되어 설계되어 있으며, 이는 작업 정보를 특정 방식으로 인코딩하여 범용 에이전트의 공정한 평가를 어렵게 만듭니다. 본 논문에서는 범용 에이전트 평가를 독립적인 연구 목표로 설정합니다. 우리는 이러한 평가를 위한 개념적 원칙, 에이전트와 벤치마크를 통합할 수 있는 통합 프로토콜, 그리고 범용 에이전트 평가를 위한 실용적인 프레임워크인 Exgentic을 제안합니다. 우리는 최초의 공개 범용 에이전트 순위표를 만들기 위해, 6개의 환경에서 5개의 주요 에이전트 구현 방식을 벤치마킹했습니다. 우리의 실험 결과, 범용 에이전트는 다양한 환경에서 일반화 성능을 보이며, 특정 환경에 대한 추가적인 조정 없이도 특정 작업에 특화된 에이전트와 비교 가능한 성능을 달성합니다. 우리는 평가 프로토콜, 프레임워크 및 순위표를 공개하여 범용 에이전트에 대한 체계적인 연구의 기반을 마련하고자 합니다.
The promise of general-purpose agents - systems that perform tasks in unfamiliar environments without domain-specific engineering - remains largely unrealized. Existing agents are predominantly specialized, and while emerging implementations like OpenAI SDK Agent and Claude Code hint at broader capabilities, no systematic evaluation of their general performance has been pursued. Current agentic benchmarks assume domain-specific integration, encoding task information in ways that preclude fair evaluation of general agents. This paper frames general-agent evaluation as a first-class research objective. We propose conceptual principles for such evaluation, a Unified Protocol enabling agent-benchmark integration, and Exgentic - a practical framework for general agent evaluation. We benchmark five prominent agent implementations across six environments as the first Open General Agent Leaderboard. Our experiments show that general agents generalize across diverse environments, achieving performance comparable to domain-specific agents without any environment-specific tuning. We release our evaluation protocol, framework, and leaderboard to establish a foundation for systematic research on general-purpose agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.