ProRL 에이전트: 다중 턴 LLM 에이전트 강화 학습을 위한 롤아웃 서비스
ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents
다중 턴 LLM 에이전트는 복잡하고 상호작용적인 작업을 해결하는 데 점점 더 중요해지고 있으며, 강화 학습(RL)은 이러한 에이전트의 장기적인 성능을 향상시키는 핵심 요소입니다. 그러나 RL 학습에는 많은 수의 격리된 롤아웃 시뮬레이션을 생성해야 하며, 기존 인프라는 종종 롤아웃 관리와 학습 루프를 결합하여 시스템의 이식성과 유지 보수성을 어렵게 만듭니다. 롤아웃 서비스라는 철학을 바탕으로, 저희는 API 서비스를 통해 전체 에이전트 롤아웃 라이프사이클을 제공하는 확장 가능한 인프라인 ProRL 에이전트를 제시합니다. ProRL 에이전트는 또한 표준화되고 확장 가능한 샌드박스 환경을 제공하며, 이를 통해 루트리스 HPC 환경에서 다양한 에이전트 작업을 지원합니다. 저희는 소프트웨어 엔지니어링, 수학, STEM, 코딩 작업에 대한 RL 학습을 통해 ProRL 에이전트를 검증했습니다. ProRL 에이전트는 오픈 소스로 공개되었으며, NVIDIA NeMo Gym의 일부로 통합되었습니다.
Multi-turn LLM agents are increasingly important for solving complex, interactive tasks, and reinforcement learning (RL) is a key ingredient for improving their long-horizon behavior. However, RL training requires generating large numbers of sandboxed rollout trajectories, and existing infrastructures often couple rollout orchestration with the training loop, making systems hard to migrate and maintain. Under the rollout-as-a-service philosophy, we present ProRL Agent , a scalable infrastructure that serves the full agentic rollout lifecycle through an API service. ProRL Agent also provides standardized and extensible sandbox environments that support diverse agentic tasks in rootless HPC settings. We validate ProRL Agent through RL training on software engineering, math, STEM, and coding tasks. ProRL Agent is open-sourced and integrated as part of NVIDIA NeMo Gym.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.