2604.26904v1 Apr 29, 2026 cs.CL

ClawGym: 효과적인 클로 에이전트 구축을 위한 확장 가능한 프레임워크

ClawGym: A Scalable Framework for Building Effective Claw Agents

Yuan Wei
Yuan Wei
Citations: 7
h-index: 2
Daixuan Cheng
Daixuan Cheng
Citations: 789
h-index: 11
Huatong Song
Huatong Song
Citations: 573
h-index: 6
W. Zhao
W. Zhao
Citations: 240
h-index: 4
Jian Yang
Jian Yang
Citations: 17
h-index: 2
Chuan Hao
Chuan Hao
Citations: 40
h-index: 2
Ran Tao
Ran Tao
Citations: 11
h-index: 2
Renyuan Li
Renyuan Li
Citations: 18
h-index: 3
Fei Bai
Fei Bai
Citations: 90
h-index: 4
Bryan Dai
Bryan Dai
Citations: 227
h-index: 3
Yike Yang
Yike Yang
Citations: 13
h-index: 1
Fengjie Chang
Fengjie Chang
Citations: 1
h-index: 1
Shuang Sun
Shuang Sun
Citations: 89
h-index: 2

클로(Claw) 스타일 환경은 로컬 파일, 도구 및 지속적인 작업 공간 상태를 활용한 다단계 워크플로우를 지원합니다. 그러나 이러한 환경을 중심으로 확장 가능한 개발은 체계적인 프레임워크, 특히 검증 가능한 학습 데이터 생성 및 에이전트 훈련 및 진단 평가와의 통합이 부족하여 여전히 제약이 있습니다. 이러한 문제를 해결하기 위해, 우리는 클로 스타일 개인 에이전트 개발의 전체 라이프사이클을 지원하는 확장 가능한 프레임워크인 ClawGym을 제시합니다. 구체적으로, 우리는 페르소나 기반 의도 및 기술 기반 작업을 통해 생성된 13,500개의 필터링된 작업으로 구성된 다양한 데이터셋 ClawGym-SynData를 구축하고, 이를 현실적인 모의 작업 공간 및 하이브리드 검증 메커니즘과 함께 제공합니다. 또한, 우리는 블랙박스 롤아웃 경로에 대한 지도 학습을 통해 ClawGym-Agents라는 강력한 클로 스타일 모델 패밀리를 훈련하고, 각 작업별 샌드박스에서 롤아웃을 병렬화하는 경량 파이프라인을 통해 강화 학습을 추가적으로 탐구합니다. 신뢰성 있는 평가를 지원하기 위해, 우리는 자동 필터링 및 인간-LLM 검토를 통해 조정된 200개의 인스턴스로 구성된 벤치마크인 ClawGym-Bench를 추가적으로 구축했습니다. 관련 자료는 곧 https://github.com/ClawGym 에서 공개될 예정입니다.

Original Abstract

Claw-style environments support multi-step workflows over local files, tools, and persistent workspace states. However, scalable development around these environments remains constrained by the absence of a systematic framework, especially one for synthesizing verifiable training data and integrating it with agent training and diagnostic evaluation. To address this challenge, we present ClawGym, a scalable framework that supports the full lifecycle of Claw-style personal agent development. Concretely, we construct ClawGym-SynData, a diverse dataset of 13.5K filtered tasks synthesized from persona-driven intents and skill-grounded operations, paired with realistic mock workspaces and hybrid verification mechanisms. We then train a family of capable Claw-style models, termed ClawGym-Agents, through supervised fine-tuning on black-box rollout trajectories, and further explore reinforcement learning via a lightweight pipeline that parallelizes rollouts across per-task sandboxes.To support reliable evaluation, we further construct ClawGym-Bench, a benchmark of 200 instances calibrated through automated filtering and human-LLM review. Relevant resources will be soon released at https://github.com/ClawGym.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!