세상은 멈추지 않는다: 에이전트 벤치마크를 위한 프로그래밍 가능한 진화
The World Won't Stay Still: Programmable Evolution for Agent Benchmarks
LLM 기반 에이전트는 환경과 상호 작용하고, 데이터를 쿼리하고, 도구를 호출하여 사용자의 요청을 처리합니다. 그러나 대부분의 기존 벤치마크는 고정된 스키마와 도구 세트를 가진 정적인 환경을 가정하며, 실제 세계의 진화적 특성과 환경 변화에 대한 에이전트의 강건성을 간과합니다. 본 논문에서는 에이전트 환경을 확장 가능하고 제어 가능한 방식으로 진화시키는 중요한 문제를 다룹니다. 이를 통해 에이전트가 실제 세계의 역동성에 얼마나 잘 적응하는지 더 정확하게 평가할 수 있습니다. 우리는 환경 진화를 프로그래밍 가능하게 만드는 그래프 기반 프레임워크인 ProEvolve를 제안합니다. ProEvolve의 핵심은 타입이 지정된 관계 그래프로, 환경의 데이터, 도구 및 스키마를 통일적이고 명시적으로 표현합니다. 이러한 형식 하에서, 기능 추가, 제거 또는 수정은 도구, 스키마 및 데이터 액세스 전반에 걸쳐 일관성 있게 업데이트를 전파하는 그래프 변환으로 표현됩니다. ProEvolve는 (1) 그래프 변환을 사용하여 환경 진화의 역동성을 프로그래밍하여 환경을 자동으로 생성하고, (2) 부분 그래프 샘플링 및 프로그래밍을 통해 작업 샌드박스를 생성할 수 있습니다. 우리는 ProEvolve를 사용하여 단일 환경을 200개의 환경과 3,000개의 작업 샌드박스로 진화시키고, 대표적인 에이전트를 사용하여 성능을 평가했습니다.
LLM-powered agents fulfill user requests by interacting with environments, querying data, and invoking tools in a multi-turn process. Yet, most existing benchmarks assume static environments with fixed schemas and toolsets, neglecting the evolutionary nature of the real world and agents' robustness to environmental changes. In this paper, we study a crucial problem: how to evolve the agent environment in a scalable and controllable way, thereby better evaluating agents' adaptability to real-world dynamics. We propose ProEvolve, a graph-based framework that makes environment evolution programmable. At its core, a typed relational graph provides a unified, explicit representation of the environment: data, tools, and schema. Under this formalism, adding, removing, or modifying capabilities are expressed as graph transformations that coherently propagate updates across tools, schemas, and data access. Building on this, ProEvolve can (1) program the evolutionary dynamics as graph transformations to generate environments automatically, and (2) instantiate task sandboxes via subgraph sampling and programming. We validate ProEvolve by evolving a single environment into 200 environments and 3,000 task sandboxes, and benchmark representative agents accordingly.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.