ClawGym: 효과적인 클로 에이전트 구축을 위한 확장 가능한 프레임워크
ClawGym: A Scalable Framework for Building Effective Claw Agents
클로(Claw) 스타일 환경은 로컬 파일, 도구 및 지속적인 작업 공간 상태를 활용한 다단계 워크플로우를 지원합니다. 그러나 이러한 환경을 중심으로 확장 가능한 개발은 체계적인 프레임워크, 특히 검증 가능한 학습 데이터 생성 및 에이전트 훈련 및 진단 평가와의 통합이 부족하여 여전히 제약이 있습니다. 이러한 문제를 해결하기 위해, 우리는 클로 스타일 개인 에이전트 개발의 전체 라이프사이클을 지원하는 확장 가능한 프레임워크인 ClawGym을 제시합니다. 구체적으로, 우리는 페르소나 기반 의도 및 기술 기반 작업을 통해 생성된 13,500개의 필터링된 작업으로 구성된 다양한 데이터셋 ClawGym-SynData를 구축하고, 이를 현실적인 모의 작업 공간 및 하이브리드 검증 메커니즘과 함께 제공합니다. 또한, 우리는 블랙박스 롤아웃 경로에 대한 지도 학습을 통해 ClawGym-Agents라는 강력한 클로 스타일 모델 패밀리를 훈련하고, 각 작업별 샌드박스에서 롤아웃을 병렬화하는 경량 파이프라인을 통해 강화 학습을 추가적으로 탐구합니다. 신뢰성 있는 평가를 지원하기 위해, 우리는 자동 필터링 및 인간-LLM 검토를 통해 조정된 200개의 인스턴스로 구성된 벤치마크인 ClawGym-Bench를 추가적으로 구축했습니다. 관련 자료는 곧 https://github.com/ClawGym 에서 공개될 예정입니다.
Claw-style environments support multi-step workflows over local files, tools, and persistent workspace states. However, scalable development around these environments remains constrained by the absence of a systematic framework, especially one for synthesizing verifiable training data and integrating it with agent training and diagnostic evaluation. To address this challenge, we present ClawGym, a scalable framework that supports the full lifecycle of Claw-style personal agent development. Concretely, we construct ClawGym-SynData, a diverse dataset of 13.5K filtered tasks synthesized from persona-driven intents and skill-grounded operations, paired with realistic mock workspaces and hybrid verification mechanisms. We then train a family of capable Claw-style models, termed ClawGym-Agents, through supervised fine-tuning on black-box rollout trajectories, and further explore reinforcement learning via a lightweight pipeline that parallelizes rollouts across per-task sandboxes.To support reliable evaluation, we further construct ClawGym-Bench, a benchmark of 200 instances calibrated through automated filtering and human-LLM review. Relevant resources will be soon released at https://github.com/ClawGym.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.