Agent^2 RL-벤치: LLM 에이전트가 에이전트 기반 강화 학습 후속 훈련을 수행할 수 있는가?
Agent^2 RL-Bench: Can LLM Agents Engineer Agentic RL Post-Training?
본 논문에서는 Agent^2 RL-Bench를 소개합니다. 이는 LLM 에이전트가 기초 모델을 개선하는 완전한 강화 학습 파이프라인을 자율적으로 설계, 구현 및 실행할 수 있는지 평가하는 벤치마크입니다. 이러한 능력은 강화 학습 후속 훈련이 모델 정렬 및 특수화에 점점 더 중요한 역할을 하기 때문이지만, 기존 벤치마크는 대부분 정적이며, 지도 학습 미세 조정만으로도 강력한 결과를 얻을 수 있어, 상호 작용 기반 강화 학습 엔지니어링은 아직 검증되지 않았습니다. Agent^2 RL-Bench는 정적 규칙 기반 훈련부터 트래젝토리 수집을 포함하는 폐루프 온라인 강화 학습까지, 세 가지 수준에 걸쳐 총 여섯 가지 작업을 제공합니다. 각 작업은 이전 수준에서 요구하지 않는 구조적 요구 사항을 추가합니다. 벤치마크는 격리된 작업 공간, 등급 API, 모든 제출 및 코드 수정 사항을 기록하는 런타임 계측, 그리고 에이전트 기반 후속 훈련 동작을 자동으로 진단할 수 있는 구조화된 실행 보고서를 생성하는 자동 후처리 분석 기능을 제공합니다. 다섯 개의 에이전트 시스템과 여섯 개의 드라이버 LLM을 포함하는 다양한 에이전트 스택을 사용하여, 에이전트가 상당한 상호 작용 기반 성능 향상을 달성한다는 것을 확인했습니다. 예를 들어, ALFWorld에서 강화 학습만 사용하는 에이전트가 SFT 사전 훈련 및 온라인 롤아웃을 사용하는 GRPO를 통해 5.97에서 93.28로 성능이 향상되었습니다. 그러나 다른 작업에서는 미미한 성능 향상만 보였습니다(DeepSearchQA: +2.75, 평가 노이즈 범위 내). 또한, 드라이버 선택은 상호 작용 작업에 큰 영향을 미칩니다. 동일한 프레임워크 내에서 드라이버를 변경하면 상호 작용 개선률이 거의 0에서 +78pp로 크게 변동합니다. 전반적으로, 벤치마크는 고정된 예산 하에서 상호 작용 기반 파이프라인이 에이전트 기반 후속 훈련에서 우위를 점하고 있으며, 온라인 강화 학습은 ALFWorld에서만 최종적으로 최적의 방법으로 성공한다는 것을 보여줍니다. 코드는 https://github.com/microsoft/RD-Agent/tree/main/rdagent/scenarios/rl/autorl_bench 에서 확인할 수 있습니다.
We introduce Agent^2 RL-Bench, a benchmark for evaluating agentic RL post-training -- whether LLM agents can autonomously design, implement, and run complete RL pipelines that improve foundation models. This capability is important because RL post-training increasingly drives model alignment and specialization, yet existing benchmarks remain largely static: supervised fine-tuning alone yields strong results, leaving interactive RL engineering untested. Agent^2 RL-Bench addresses this with six tasks across three levels -- from static rule-based training to closed-loop online RL with trajectory collection -- each adding a structural requirement that prior levels do not impose. The benchmark provides isolated workspaces with a grading API, runtime instrumentation that records every submission and code revision, and automated post-hoc analysis that generates structured run reports, enabling the first automated diagnostic of agent-driven post-training behavior. Across multiple agent stacks spanning five agent systems and six driver LLMs, we find that agents achieve striking interactive gains -- on ALFWorld, an RL-only agent improves from 5.97 to 93.28 via SFT warm-up and GRPO with online rollouts -- yet make only marginal progress on others (DeepSearchQA: +2.75 within evaluation noise), and that driver choice has a large effect on interactive tasks -- within the same scaffold, switching drivers changes interactive improvement from near-zero to +78pp. More broadly, the benchmark reveals that supervised pipelines dominate agent-driven post-training under fixed budgets, with online RL succeeding as the final best route only on ALFWorld. Code is available at https://github.com/microsoft/RD-Agent/tree/main/rdagent/scenarios/rl/autorl_bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.