ArenaRL: 토너먼트 기반 상대적 순위 방식을 활용한 개방형 에이전트를 위한 강화 학습 확장
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking
강화 학습은 검증 가능한 결과가 있는 작업에서 LLM(Large Language Model) 에이전트의 성능을 크게 향상시켰지만, 여전히 방대한 해결 공간을 가진 개방형 에이전트 작업(예: 복잡한 여행 계획)에서는 어려움을 겪습니다. 이러한 작업에는 객관적인 정답이 없기 때문에, 현재 강화 학습 알고리즘은 주로 개별 응답에 스칼라 점수를 할당하는 보상 모델에 의존합니다. 우리는 이러한 점-별 점수 부여 방식이 본질적인 차별 문제를 야기한다고 주장합니다. 즉, 보상 모델은 서로 다른 경로 간의 미묘한 장점을 구별하는 데 어려움을 겪어, 그룹 내 점수들이 좁은 범위로 압축되는 현상이 발생합니다. 그 결과, 효과적인 보상 신호는 보상 모델의 노이즈에 압도되어 최적화가 정체되는 문제가 발생합니다. 이를 해결하기 위해, 우리는 점-별 스칼라 점수 부여 방식을 그룹 내 상대적 순위 방식으로 전환하는 강화 학습 패러다임인 ArenaRL을 제안합니다. ArenaRL은 프로세스 정보를 고려한 쌍대 비교 평가 메커니즘을 도입하여, 다단계 평가 기준을 사용하여 경로에 대한 세분화된 상대적 점수를 할당합니다. 또한, 그룹 내 적대적 환경을 구축하고, 안정적인 장점 신호를 얻기 위한 토너먼트 기반 순위 방식을 고안했습니다. 실험 결과는 우리가 제안한 초기 시드 단일 탈락 방식이 O(N^2)의 복잡도를 갖는 완전한 쌍대 비교와 거의 동일한 정확도로 장점을 추정하는 동시에, O(N)의 복잡도로 작동하여 효율성과 정확성 사이의 최적의 균형을 이룬다는 것을 확인했습니다. 또한, 개방형 에이전트를 위한 완전한 사이클 벤치마크의 부족 문제를 해결하기 위해, SFT(Supervised Fine-Tuning), 강화 학습 훈련 및 다차원 평가를 포괄하는 종합적인 파이프라인을 갖춘 고품질 벤치마크인 Open-Travel과 Open-DeepResearch를 구축했습니다. 광범위한 실험 결과, ArenaRL은 표준 강화 학습 기준 성능을 크게 능가하며, LLM 에이전트가 복잡한 실제 작업에 대해 더욱 견고한 솔루션을 생성할 수 있도록 합니다.
Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.