진화하는 프로그램적 스킬 네트워크
Evolving Programmatic Skill Networks
우리는 에이전트가 실행 가능한 스킬의 확장 라이브러리를 구축, 정제 및 재사용해야 하는 개방형 체화 환경(embodied environment)에서의 지속적 스킬 습득을 연구한다. 본 연구에서는 스킬들이 실행 가능한 기호 프로그램으로서 경험을 통해 진화하는 구성적 네트워크를 형성하는 프레임워크인 프로그램적 스킬 네트워크(PSN)를 소개한다. PSN은 거대 언어 모델을 통해 구현되는 세 가지 핵심 메커니즘을 정의한다: (1) 스킬 구성 전반에 걸친 구조화된 오류 국소화를 위한 REFLECT, (2) 신뢰할 수 있는 스킬은 안정화하고 불확실한 스킬에 대해서는 가소성을 유지하는 성숙도 인식 업데이트 게이팅을 포함한 점진적 최적화, 그리고 (3) 네트워크의 간결성을 유지하는 롤백 검증 하의 표준적 구조 리팩터링이다. 또한 우리는 PSN의 학습 역학이 신경망 훈련과 구조적 유사성을 보임을 입증한다. MineDojo와 Crafter에서의 실험은 개방형 작업 분포 전반에 걸쳐 견고한 스킬 재사용, 신속한 적응, 그리고 강력한 일반화 성능을 보여준다.
We study continual skill acquisition in open-ended embodied environments where an agent must construct, refine, and reuse an expanding library of executable skills. We introduce the Programmatic Skill Network (PSN), a framework in which skills are executable symbolic programs forming a compositional network that evolves through experience. PSN defines three core mechanisms instantiated via large language models: (1)REFLECT for structured fault localization over skill compositions, (2) progressive optimization with maturity-aware update gating that stabilizes reliable skills while maintaining plasticity for uncertain ones, and (3) canonical structural refactoring under rollback validation that maintains network compactness. We further show that PSN's learning dynamics exhibit structural parallels to neural network training. Experiments on MineDojo and Crafter demonstrate robust skill reuse, rapid adaptation, and strong generalization across open-ended task distributions.\footnote{We plan to open-source the code.
AI Analysis
Korean Summary
Key Innovations
- 스킬을 실행 가능한 심볼릭 프로그램 단위의 조합적 네트워크 그래프로 모델링 (Programmatic Skill Networks)
- 실행 추적(execution trace)을 분석하여 복합 스킬 오류 발생 시 책임 소재를 파악하고 국소적으로 수정하는 기호적 형태의 신용 할당 및 역전파 메커니즘 (REFLECT)
- 스킬의 성공률에 따라 업데이트 빈도를 조절하여, 신뢰할 수 있는 스킬은 보존(안정성)하고 새로운 스킬은 유연하게 수정(가소성)하는 성숙도 기반 업데이트 게이팅 (Maturity-aware Update Gating)
- 중복 스킬 병합, 공통 하위 스킬 추출 등 의미를 보존하면서 네트워크 구조를 최적화하고 롤백 검증을 통해 안전성을 확보하는 온라인 구조적 리팩토링 (Online Structural Refactoring)
Learning & Inference Impact
학습 측면에서 PSN은 신경망의 최적화 방식과 매우 유사한 궤적을 보입니다. 오류 발생 시 단순히 전체 코드를 재생성하는 것이 아니라, 실패한 실행 경로를 따라가며 책임을 분배(기호적 역전파)하여 필요한 스킬만 국소적으로 수정하므로 학습 효율이 크게 향상됩니다. 또한 성숙도 게이팅과 리팩토링을 통해 지속적 학습(Continual Learning) 시 발생하는 기존 지식의 훼손(치명적 망각)을 방지하고 스킬 라이브러리가 무한정 커지는 것을 통제합니다. 추론 측면에서 에이전트는 이미 검증되고 캡슐화된 스킬 네트워크를 재사용하므로, 매번 백지에서 계획을 세우는 대신 역방향 추론(Backward-chaining)을 통해 신속하고 안정적으로 하위 목표들을 달성할 수 있습니다. 이는 LLM의 환각을 줄이고, 실행 단계가 길고 복잡한(long-horizon) 환경에서 압도적으로 높고 일관된 작업 성공률을 이끌어냅니다.
Technical Difficulty
Estimated implementation complexity based on methodology.