ARISE: 계층적 강화 학습에서 내재적 기술 진화를 통한 에이전트 추론
ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning
언어 모델의 수학적 추론 능력을 향상시키는 주된 방법은 검증 가능한 보상을 사용하는 강화 학습입니다. 그러나 기존 방법들은 각 문제 인스턴스를 독립적으로 처리하며, 훈련 과정에서 나타나고 축적되는 재사용 가능한 전략을 활용하지 못합니다. 이에, 본 논문에서는 계층적 강화 학습 프레임워크인 ARISE (Agent Reasoning via Intrinsic Skill Evolution)를 소개합니다. ARISE는 공유 정책을 사용하여 고수준에서 기술을 관리하고, 저수준에서 응답을 생성합니다 (각각 Skills Manager와 Worker로 명명). Manager는 전용 기술 생성 과정을 통해 성공적인 해결 과정을 구조적으로 요약하여 계층적 기술 라이브러리를 유지하며, 정책 기반 선택 메커니즘을 사용하여 미래의 실행에 필요한 관련 기술을 검색합니다. 계층적 보상 설계는 추론 능력과 라이브러리 품질의 공동 진화를 유도합니다. 두 가지 기본 모델과 경쟁 수학 및 Omni-MATH를 포함한 일곱 가지 벤치마크에 대한 실험 결과, ARISE는 GRPO 계열 알고리즘 및 메모리 기반 모델보다 일관되게 우수한 성능을 보이며, 특히 일반화 성능이 낮은 작업에서 두드러진 성능 향상을 보입니다. 제거 실험을 통해 각 구성 요소가 관찰된 성능 향상에 기여하며, 훈련 과정 전반에 걸쳐 라이브러리 품질과 추론 성능이 함께 향상됨을 확인했습니다. 코드 및 관련 자료는 다음 링크에서 확인할 수 있습니다: [https://github.com/Skylanding/ARISE](https://github.com/Skylanding/ARISE)
The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at \href{https://github.com/Skylanding/ARISE}{https://github.com/Skylanding/ARISE}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.