약자 주도 학습: 약한 에이전트가 강한 에이전트를 어떻게 더 강하게 만드는가
Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
대규모 언어 모델 개선의 핵심으로 사후 학습 최적화가 부상함에 따라, 우리는 지속적인 포화 병목 현상을 관찰하였습니다. 이는 모델의 확신이 높아지면 추가 훈련의 효용이 감소하는 현상입니다. 기존 방법론들이 타겟 예측을 강화하는 데 머무르는 반면, 우리는 모델 자신의 과거 약한 상태에 유용한 지도 신호가 잠재되어 있음을 발견했습니다. 이러한 관찰에 착안하여, 우리는 약한 체크포인트를 활용해 지속적인 최적화를 유도하는 사후 학습 패러다임인 WMSS(Weak Agents Can Make Strong Agents Stronger)를 제안합니다. WMSS는 엔트로피 역학을 통해 회복 가능한 학습 격차를 식별하고 이를 보상 학습으로 강화함으로써, 강한 에이전트가 기존 사후 학습의 포화 한계를 넘어 성능을 개선할 수 있도록 합니다. 수학적 추론 및 코드 생성 데이터셋을 활용한 실험 결과, 우리의 접근법으로 훈련된 에이전트는 추가적인 추론 비용 없이 효과적인 성능 향상을 달성함을 입증하였습니다.
As post-training optimization becomes central to improving large language models, we observe a persistent saturation bottleneck: once models grow highly confident, further training yields diminishing returns. While existing methods continue to reinforce target predictions, we find that informative supervision signals remain latent in models' own historical weak states. Motivated by this observation, we propose WMSS (Weak Agents Can Make Strong Agents Stronger), a post-training paradigm that leverages weak checkpoints to guide continued optimization. By identifying recoverable learning gaps via entropy dynamics and reinforcing them through compensatory learning, WMSS enables strong agents to improve beyond conventional post-training saturation. Experiments on mathematical reasoning and code generation datasets show that agents trained with our approach achieve effective performance improvements, while incurring zero additional inference cost.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.