ARL-Tangram: 에이전트 기반 강화 학습의 자원 효율성 극대화
ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning
에이전트 기반 강화 학습(RL)은 클라우드 클러스터에서 혁신적인 워크로드로 부상했으며, 이를 통해 대규모 언어 모델(LLM)이 실제 세계와의 상호 작용을 통해 복잡한 문제를 해결할 수 있습니다. 그러나 기존 RL과 달리, 에이전트 기반 RL은 코드 실행에 필요한 CPU, 보상 모델에 필요한 GPU 등 주요 학습 클러스터 외부의 상당한 외부 클라우드 자원을 요구합니다. 기존 에이전트 기반 RL 프레임워크는 일반적으로 정적인 과잉 프로비저닝에 의존하는데, 이는 자원이 장기적인 추적 또는 개별 작업에 고정되거나 격리되어 심각한 자원 비효율성을 초래합니다. 저희는 액션 레벨 오케스트레이션을 제안하고, 이를 통합된 자원 관리 시스템인 ARL-Tangram에 통합하여, 세밀한 외부 자원 공유 및 탄력성을 가능하게 합니다. ARL-Tangram은 통합된 액션 레벨 공식화와 탄력적인 스케줄링 알고리즘을 사용하여 다양한 자원 제약 조건을 충족하면서 액션 완료 시간(ACT)을 최소화합니다. 또한, 다양한 자원 관리자는 다양한 특성과 토폴로지를 가진 자원에서 액션 레벨 실행을 효율적으로 지원하도록 설계되었습니다. 실제 에이전트 기반 RL 작업에 대한 평가 결과, ARL-Tangram은 평균 ACT를 최대 4.3배 향상시키고, RL 학습의 단계를 최대 1.5배 가속화하며, 외부 자원을 최대 71.2% 절약하는 것으로 나타났습니다. 이 시스템은 MiMo 시리즈 모델 학습을 지원하기 위해 배포되었습니다.
Agentic reinforcement learning (RL) has emerged as a transformative workload in cloud clusters, enabling large language models (LLMs) to solve complex problems through interactions with real world. However, unlike traditional RL, agentic RL demands substantial external cloud resources, e.g., CPUs for code execution and GPUs for reward models, that exist outside the primary training cluster. Existing agentic RL framework typically rely on static over-provisioning, i.e., resources are often tied to long-lived trajectories or isolated by tasks, which leads to severe resource inefficiency. We propose the action-level orchestration, and incorporate it into ARL-Tangram, a unified resource management system that enables fine-grained external resource sharing and elasticity. ARL-Tangram utilizes a unified action-level formulation and an elastic scheduling algorithm to minimize action completion time (ACT) while satisfying heterogeneous resource constraints. Further, heterogeneous resource managers are tailored to efficiently support the action-level execution on resources with heterogeneous characteristics and topologies. Evaluation on real-world agentic RL tasks demonstrates that ARL-Tangram improves average ACT by up to 4.3$\times$, speeds up the step duration of RL training by up to 1.5$\times$, and saves the external resources by up to 71.2$\%$. This system has been deployed to support the training of the MiMo series models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.