SPARD: 보상 역학 및 데이터 유용성을 통합하여 강화 학습의 목표 정렬을 위한 자기 주도형 교육 과정
SPARD: Self-Paced Curriculum for RL Alignment via Integrating Reward Dynamics and Data Utility
최근 대규모 언어 모델(LLM)의 발전은 검증 가능한 단일 작업에서 벗어나 복잡하고 개방적인 실제 환경으로의 전환을 가져오면서, 학습 후 단계에서 상당한 어려움을 야기하고 있습니다. 이러한 환경에서 보상 시스템의 규모와 복잡성이 크게 증가했으며, 모델의 다양한 기능과 응용 맥락을 포괄하는 다중 목표 최적화 방식으로 전환되고 있습니다. 그러나 기존 방법은 일반적으로 고정된 보상 가중치에 의존하여 비정상적인 학습 역학을 고려하지 못하며, 다양한 차원에서의 데이터 이질성에 대한 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 SPARD라는 프레임워크를 제안합니다. SPARD는 학습 진행 상황을 인식하여 다중 목표 보상 가중치와 데이터 중요도를 동적으로 조정함으로써, 학습 목표와 데이터 유용성을 동기화하여 최적의 성능을 달성하는 자동화된 자기 주도형 교육 과정을 구축합니다. 다양한 벤치마크에 대한 광범위한 실험 결과, SPARD는 모든 영역에서 모델의 성능을 크게 향상시키는 것으로 나타났습니다.
The evolution of Large Language Models (LLMs) is shifting the focus from single, verifiable tasks toward complex, open-ended real-world scenarios, imposing significant challenges on the post-training phase. In these settings, the scale and complexity of reward systems have grown significantly, transitioning toward multi-objective formulations that encompass a comprehensive spectrum of model capabilities and application contexts. However, traditional methods typically rely on fixed reward weights, ignoring non-stationary learning dynamics and struggling with data heterogeneity across dimensions. To address these issues, we propose SPARD, a framework that establishes an automated, self-paced curriculum by perceiving learning progress to dynamically adjust multi-objective reward weights and data importance, thereby synchronizing learning intent with data utility for optimal performance. Extensive experiments across multiple benchmarks demonstrate that SPARD significantly enhances model capabilities across all domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.