CADENT: 게이티드 하이브리드 증류를 통한 강화 학습에서의 샘플 효율적인 전이 학습
CADENT: Gated Hybrid Distillation for Sample-Efficient Transfer in Reinforcement Learning
전이 학습은 딥 강화 학습(RL)의 높은 샘플 복잡성을 줄일 수 있는 잠재력을 가지고 있지만, 기존 방법들은 소스 환경과 타겟 환경 간의 도메인 변화에 어려움을 겪습니다. 정책 증류는 강력한 전술적 지침을 제공하지만 장기적인 전략적 지식을 전달하는 데 실패하며, 오토마타 기반 방법은 작업 구조를 파악하지만 세분화된 행동 지침을 제공하지 못합니다. 본 논문에서는 컨텍스트 인지 증류와 경험 게이팅 전이(CADENT)라는 프레임워크를 소개합니다. CADENT는 전략적인 오토마타 기반 지식과 전술적인 정책 수준 지식을 일관된 지침 신호로 통합합니다. CADENT의 핵심 혁신은 경험 게이팅된 신뢰 메커니즘으로, 이는 상태-행동 수준에서 학생의 자체 경험에 대한 가중치를 동적으로 조절하여, 타겟 도메인의 특성에 대한 유연한 적응을 가능하게 합니다. 본 논문에서는 희소 보상 격자 세계부터 연속 제어 작업에 이르기까지 다양한 환경에서 CADENT가 기준 모델보다 40~60% 더 높은 샘플 효율성을 달성하고 우수한 최종 성능을 유지하여, 강화 학습에서의 적응적 지식 전이를 위한 견고한 접근 방식을 제시합니다.
Transfer learning promises to reduce the high sample complexity of deep reinforcement learning (RL), yet existing methods struggle with domain shift between source and target environments. Policy distillation provides powerful tactical guidance but fails to transfer long-term strategic knowledge, while automaton-based methods capture task structure but lack fine-grained action guidance. This paper introduces Context-Aware Distillation with Experience-gated Transfer (CADENT), a framework that unifies strategic automaton-based knowledge with tactical policy-level knowledge into a coherent guidance signal. CADENT's key innovation is an experience-gated trust mechanism that dynamically weighs teacher guidance against the student's own experience at the state-action level, enabling graceful adaptation to target domain specifics. Across challenging environments, from sparse-reward grid worlds to continuous control tasks, CADENT achieves 40-60\% better sample efficiency than baselines while maintaining superior asymptotic performance, establishing a robust approach for adaptive knowledge transfer in RL.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.