SAGE: LLM 추론을 위한 다중 에이전트 자가 진화
SAGE: Multi-Agent Self-Evolution for LLM Reasoning
검증 가능한 보상을 활용한 강화 학습은 대규모 언어 모델(LLM)의 추론 능력을 향상시키지만, 많은 방법은 여전히 대규모의 인간이 레이블링한 데이터셋에 의존합니다. 자기 학습은 이러한 의존성을 줄일 수 있지만, 명시적인 계획 부족과 강력한 품질 관리의 부재로 인해 장기적인 다단계 추론에서 안정성이 제한될 수 있습니다. 본 논문에서는 SAGE(Self-evolving Agents for Generalized reasoning Evolution)라는 폐쇄 루프 프레임워크를 제시합니다. SAGE는 챌린저(Challenger), 플래너(Planner), 솔버(Solver), 그리고 크리틱(Critic)이라는 네 개의 에이전트로 구성되며, 이들은 작은 초기 데이터셋만을 사용하여 공통의 LLM 기반 모델에서 함께 진화합니다. 챌린저는 지속적으로 난이도가 높아지는 작업을 생성하고, 플래너는 각 작업을 구조화된 다단계 계획으로 변환하며, 솔버는 계획을 따라 답을 생성합니다. 외부 검증기를 통해 생성된 답의 정확성이 결정됩니다. 크리틱은 생성된 질문과 계획을 평가하고 필터링하여 교육 과정의 편향을 방지하고 학습 신호의 품질을 유지함으로써 안정적인 자기 학습을 가능하게 합니다. 수학 및 코드 생성 벤치마크에서 SAGE는 다양한 모델 규모에서 일관된 성능 향상을 보여주며, Qwen-2.5-7B 모델을 LiveCodeBench에서 8.9%, OlympiadBench에서 10.7% 향상시켰습니다.
Reinforcement learning with verifiable rewards improves reasoning in large language models (LLMs), but many methods still rely on large human-labeled datasets. While self-play reduces this dependency, it often lacks explicit planning and strong quality control, limiting stability in long-horizon multi-step reasoning. We present SAGE (Self-evolving Agents for Generalized reasoning Evolution), a closed-loop framework where four agents: Challenger, Planner, Solver, and Critic, co-evolve from a shared LLM backbone using only a small seed set. The Challenger continuously generates increasingly difficult tasks; the Planner converts each task into a structured multi-step plan; and the Solver follows the plan to produce an answer, whose correctness is determined by external verifiers. The Critic scores and filters both generated questions and plans to prevent curriculum drift and maintain training signal quality, enabling stable self-training. Across mathematics and code-generation benchmarks, SAGE delivers consistent gains across model scales, improving the Qwen-2.5-7B model by 8.9% on LiveCodeBench and 10.7% on OlympiadBench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.