방향성 스킬 그래프와 선택적 적응을 통한 액션 RPG에서의 전이 가능한 스킬 학습
Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation
평생 학습 에이전트는 처음부터 다시 훈련하거나 이전에 학습된 행동을 덮어쓰지 않고 시간이 지남에 따라 역량을 확장해야 합니다. 우리는 전투를 방향성 스킬 그래프로 표현하고 그 구성 요소를 계층적 커리큘럼에서 훈련시킴으로써, 도전적인 실시간 제어 환경(다크 소울 3)에서 이를 연구했습니다. 그 결과 에이전트는 제어를 카메라 제어, 타겟 락온, 이동, 회피, 회복-공격 결정 정책의 다섯 가지 재사용 가능한 스킬로 분해하며, 각 스킬은 좁은 범위의 역할에 최적화되어 있습니다. 이러한 분해는 단일 정책에 대한 부담을 줄여 샘플 효율성을 향상시키고 선택적 사후 훈련을 지원합니다. 즉, 환경이 1페이즈에서 2페이즈로 바뀔 때, 업스트림 스킬은 전이 가능한 상태로 유지되면서 오직 일부 스킬만 적응시키면 됩니다. 실험적으로, 우리는 제한된 상호작용 예산 하에서 단 두 개의 스킬에 대한 타겟 미세 조정만으로도 성능이 빠르게 회복됨을 확인했습니다. 이는 스킬 그래프 커리큘럼과 선택적 미세 조정의 결합이 복잡한 실시간 환경에서 진화하고 지속적으로 학습하는 에이전트를 향한 실용적인 경로를 제공함을 시사합니다.
Lifelong agents should expand their competence over time without retraining from scratch or overwriting previously learned behaviors. We investigate this in a challenging real-time control setting (Dark Souls III) by representing combat as a directed skill graph and training its components in a hierarchical curriculum. The resulting agent decomposes control into five reusable skills: camera control, target lock-on, movement, dodging, and a heal-attack decision policy, each optimized for a narrow responsibility. This factorization improves sample efficiency by reducing the burden on any single policy and supports selective post-training: when the environment shifts from Phase 1 to Phase 2, only a subset of skills must be adapted, while upstream skills remain transferable. Empirically, we find that targeted fine-tuning of just two skills rapidly recovers performance under a limited interaction budget, suggesting that skill-graph curricula together with selective fine-tuning offer a practical pathway toward evolving, continually learning agents in complex real-time environments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.