2601.03509v1 Jan 07, 2026 cs.AI

진화하는 프로그램적 스킬 네트워크

Evolving Programmatic Skill Networks

Haochen Shi

Citations: 85

h-index: 4

Bang Liu

Citations: 85

h-index: 4

Xingdi Yuan

Citations: 164

h-index: 8

우리는 에이전트가 실행 가능한 스킬의 확장 라이브러리를 구축, 정제 및 재사용해야 하는 개방형 체화 환경(embodied environment)에서의 지속적 스킬 습득을 연구한다. 본 연구에서는 스킬들이 실행 가능한 기호 프로그램으로서 경험을 통해 진화하는 구성적 네트워크를 형성하는 프레임워크인 프로그램적 스킬 네트워크(PSN)를 소개한다. PSN은 거대 언어 모델을 통해 구현되는 세 가지 핵심 메커니즘을 정의한다: (1) 스킬 구성 전반에 걸친 구조화된 오류 국소화를 위한 REFLECT, (2) 신뢰할 수 있는 스킬은 안정화하고 불확실한 스킬에 대해서는 가소성을 유지하는 성숙도 인식 업데이트 게이팅을 포함한 점진적 최적화, 그리고 (3) 네트워크의 간결성을 유지하는 롤백 검증 하의 표준적 구조 리팩터링이다. 또한 우리는 PSN의 학습 역학이 신경망 훈련과 구조적 유사성을 보임을 입증한다. MineDojo와 Crafter에서의 실험은 개방형 작업 분포 전반에 걸쳐 견고한 스킬 재사용, 신속한 적응, 그리고 강력한 일반화 성능을 보여준다.

Original Abstract

We study continual skill acquisition in open-ended embodied environments where an agent must construct, refine, and reuse an expanding library of executable skills. We introduce the Programmatic Skill Network (PSN), a framework in which skills are executable symbolic programs forming a compositional network that evolves through experience. PSN defines three core mechanisms instantiated via large language models: (1)REFLECT for structured fault localization over skill compositions, (2) progressive optimization with maturity-aware update gating that stabilizes reliable skills while maintaining plasticity for uncertain ones, and (3) canonical structural refactoring under rollback validation that maintains network compactness. We further show that PSN's learning dynamics exhibit structural parallels to neural network training. Experiments on MineDojo and Crafter demonstrate robust skill reuse, rapid adaptation, and strong generalization across open-ended task distributions.\footnote{We plan to open-source the code.

3 Citations

0 Influential

4 Altmetric

23.0 Score

Original PDF

AI Analysis

Korean Summary

이 논문은 마인크래프트(Minecraft)와 같은 개방형 환경에서 에이전트가 지속적으로 스킬을 학습하고 재사용할 수 있도록 돕는 '프로그래밍 방식 스킬 네트워크(Programmatic Skill Network, PSN)' 프레임워크를 제안합니다. PSN에서 스킬은 제어 흐름, 매개변수, 사전/사후 조건을 가진 실행 가능한 심볼릭 프로그램으로 표현되며, 이들은 서로 호출하는 방향성 그래프(네트워크)를 형성합니다. 이 시스템은 실행 추적 기반의 신용 할당(REFLECT), 성숙도 기반의 업데이트 게이팅, 롤백 검증이 포함된 온라인 구조적 리팩토링이라는 세 가지 핵심 메커니즘을 도입했습니다. 이를 통해 신경망 학습의 최적화 원리(역전파, 학습률 스케줄링, 구조 탐색)를 심볼릭 프로그램 공간에 구현하여, 기존 LLM 기반 에이전트의 한계인 치명적 망각(Catastrophic Forgetting)을 극복하고 복잡한 장기 목표를 안정적으로 달성합니다.

Key Innovations

스킬을 실행 가능한 심볼릭 프로그램 단위의 조합적 네트워크 그래프로 모델링 (Programmatic Skill Networks)
실행 추적(execution trace)을 분석하여 복합 스킬 오류 발생 시 책임 소재를 파악하고 국소적으로 수정하는 기호적 형태의 신용 할당 및 역전파 메커니즘 (REFLECT)
스킬의 성공률에 따라 업데이트 빈도를 조절하여, 신뢰할 수 있는 스킬은 보존(안정성)하고 새로운 스킬은 유연하게 수정(가소성)하는 성숙도 기반 업데이트 게이팅 (Maturity-aware Update Gating)
중복 스킬 병합, 공통 하위 스킬 추출 등 의미를 보존하면서 네트워크 구조를 최적화하고 롤백 검증을 통해 안전성을 확보하는 온라인 구조적 리팩토링 (Online Structural Refactoring)

Learning & Inference Impact

학습 측면에서 PSN은 신경망의 최적화 방식과 매우 유사한 궤적을 보입니다. 오류 발생 시 단순히 전체 코드를 재생성하는 것이 아니라, 실패한 실행 경로를 따라가며 책임을 분배(기호적 역전파)하여 필요한 스킬만 국소적으로 수정하므로 학습 효율이 크게 향상됩니다. 또한 성숙도 게이팅과 리팩토링을 통해 지속적 학습(Continual Learning) 시 발생하는 기존 지식의 훼손(치명적 망각)을 방지하고 스킬 라이브러리가 무한정 커지는 것을 통제합니다. 추론 측면에서 에이전트는 이미 검증되고 캡슐화된 스킬 네트워크를 재사용하므로, 매번 백지에서 계획을 세우는 대신 역방향 추론(Backward-chaining)을 통해 신속하고 안정적으로 하위 목표들을 달성할 수 있습니다. 이는 LLM의 환각을 줄이고, 실행 단계가 길고 복잡한(long-horizon) 환경에서 압도적으로 높고 일관된 작업 성공률을 이끌어냅니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!