ClawEnvKit: 클로(Claw) 형태 에이전트를 위한 자동 환경 생성 도구
ClawEnvKit: Automatic Environment Generation for Claw-Like Agents
클로 형태 에이전트의 훈련 및 평가를 위한 환경 구축은 여전히 수동적이고 많은 인력을 필요로 하는 작업이며, 확장성이 부족합니다. 우리는 단순히 데이터셋이 필요한 것이 아니라, 다양한 환경을 자동으로 생성하고 검증할 수 있는 파이프라인이 필요하다고 주장합니다. 이를 위해, 자연어 설명을 기반으로 이러한 기능을 구현하는 자율적인 생성 파이프라인인 ClawEnvKit을 소개합니다. 이 파이프라인은 세 가지 모듈로 구성됩니다: (1) 자연어 입력을 분석하여 구조화된 생성 파라미터를 추출하는 파서, (2) 작업 사양, 도구 인터페이스 및 평가 설정을 생성하는 생성기, (3) 생성된 환경의 실현 가능성, 다양성, 구조적 유효성 및 내부 일관성을 검증하는 검증기입니다. ClawEnvKit을 사용하여 24개 범주에 걸쳐 1,040개의 환경을 포함하는 클로 형태 에이전트의 최초의 대규모 벤치마크인 Auto-ClawEval을 구축했습니다. 실험 결과, Auto-ClawEval은 13,800배 낮은 비용으로 인간이 직접 제작한 환경만큼의 일관성과 명확성을 제공합니다. 4가지 모델 패밀리와 8가지 에이전트 하네스 프레임워크에서 평가한 결과, 하네스 엔지니어링은 기본 ReAct 모델에 비해 최대 15.7%의 성능 향상을 가져왔으며, 어떤 모델도 벤치마크의 한계에 도달하지 않았습니다. 또한 자동 생성은 이전에 불가능했던 규모의 평가를 가능하게 합니다. 정적 벤치마킹 외에도, ClawEnvKit은 실시간 평가를 지원합니다. 사용자는 원하는 기능을 자연어로 설명하면 검증된 환경을 즉시 얻을 수 있으며, 이를 통해 평가는 지속적이고 사용자 중심적인 프로세스로 전환됩니다. 또한, 동일한 메커니즘은 온디맨드 훈련 환경 생성기로 사용되어, 기존 사용자 로그에 의해 제한되지 않고 에이전트의 현재 약점에 맞춰 적응하는 작업 분포를 생성합니다.
Constructing environments for training and evaluating claw-like agents remains a manual, human-intensive process that does not scale. We argue that what is needed is not just a dataset, but an automated pipeline capable of generating diverse, verified environments on demand. To this end, we introduce ClawEnvKit, an autonomous generation pipeline that instantiates this formalism from natural language descriptions. The pipeline comprises three modules: (1) a parser that extracts structured generation parameters from natural language input; (2) a generator that produces the task specification, tool interface, and scoring configuration; and (3) a validator that enforces feasibility, diversity, structural validity, and internal consistency across the generated environments. Using ClawEnvKit, we construct Auto-ClawEval, the first large-scale benchmark for claw-like agents, comprising 1,040 environments across 24 categories. Empirically, Auto-ClawEval matches or exceeds human-curated environments on coherence and clarity at 13,800x lower cost. Evaluated across 4 model families and 8 agent harness frameworks, we find that harness engineering boosts performance by up to 15.7 percentage points over a bare ReAct baseline, completion remains the primary axis of variation with no model saturating the benchmark, and automated generation enables evaluation at a scale previously infeasible. Beyond static benchmarking, ClawEnvKit enables live evaluation: users describe a desired capability in natural language and obtain a verified environment on demand, turning evaluation into a continuous, user-driven process. The same mechanism serves as an on-demand training environment generator, producing task distributions that adapt to an agent's current weaknesses rather than being bounded by existing user logs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.