2603.09576v1 Mar 10, 2026 cs.LG

잊지 않고 라우팅하기: 지속적인 학습을 위한 새로운 접근 방식

Routing without Forgetting

C. Spampinato
C. Spampinato
Citations: 1,529
h-index: 18
Giovanni Bellitto
Giovanni Bellitto
Citations: 287
h-index: 9
J. Weijer
J. Weijer
Citations: 2,368
h-index: 23
A. Masano
A. Masano
Citations: 0
h-index: 0
Dipam Goswani
Dipam Goswani
Citations: 0
h-index: 0

트랜스포머 모델에서의 지속적인 학습은 일반적으로 파라미터 효율적인 적응 방법을 통해 이루어집니다. 즉, 프롬프트, 어댑터 또는 LoRA 모듈과 같은 요소들이 각 작업에 특화되어 사용되는 반면, 기본 모델은 고정됩니다. 이러한 방법들은 제어된 다중 에포크 환경에서는 효과적이지만, 데이터가 비정상적인 스트림으로 도착하고 각 샘플이 한 번만 관찰될 수 있는 온라인 지속적인 학습(OCL) 환경에서는 점진적인 기울기 기반의 특화에 의존하며 어려움을 겪습니다. 본 논문에서는 트랜스포머 모델에서의 지속적인 학습을 라우팅 문제로 재정의합니다. 엄격한 온라인 제약 조건 하에서, 모델은 명시적인 작업 식별자나 반복적인 최적화 없이, 각 입력에 대한 적절한 표현 서브스페이스를 동적으로 선택해야 합니다. 이에 따라, 현대 호프필드 네트워크에서 영감을 받은 에너지 기반 연관 검색 레이어를 추가한 트랜스포머 아키텍처인 '라우팅 위더우트 포게팅(RwF)'을 제안합니다. RwF는 작업별 프롬프트를 저장하거나 병합하는 대신, 각 레이어의 트랜스포머 토큰 임베딩에 대한 단일 단계 연관 검색을 통해 동적 프롬프트를 생성합니다. 이 검색 과정은 엄격하게 볼록한 자유 에너지 함수의 폐쇄형 최소화를 통해 이루어지며, 이는 각 순방향 패스에서 입력에 조건화된 라우팅을 가능하게 하며, 반복적인 기울기 정제를 필요로 하지 않습니다. 어려운 클래스 증분 벤치마크에서 RwF는 기존의 프롬프트 기반 방법보다 우수한 성능을 보입니다. 특히 Split-ImageNet-R 및 Split-ImageNet-S 데이터셋에서, RwF는 기존의 프롬프트 기반 접근 방식보다 상당한 성능 향상을 보여주며, 심지어 소량의 데이터만 존재하는 환경에서도 뛰어난 성능을 나타냅니다. 이러한 결과는 에너지 기반 연관 라우팅을 트랜스포머 모델의 핵심 구조에 직접 통합하는 것이 OCL을 위한 원칙적이고 효과적인 기반을 제공한다는 것을 시사합니다.

Original Abstract

Continual learning in transformers is commonly addressed through parameter-efficient adaptation: prompts, adapters, or LoRA modules are specialized per task while the backbone remains frozen. Although effective in controlled multi-epoch settings, these approaches rely on gradual gradient-based specialization and struggle in Online Continual Learning (OCL), where data arrive as a non-stationary stream and each sample may be observed only once. We recast continual learning in transformers as a routing problem: under strict online constraints, the model must dynamically select the appropriate representational subspace for each input without explicit task identifiers or repeated optimization. We thus introduce Routing without Forgetting (RwF), a transformer architecture augmented with energy-based associative retrieval layers inspired by Modern Hopfield Networks. Instead of storing or merging task-specific prompts, RwF generates dynamic prompts through single-step associative retrieval over the transformer token embeddings at each layer. Retrieval corresponds to the closed-form minimization of a strictly convex free-energy functional, enabling input-conditioned routing within each forward pass, independently of iterative gradient refinement. Across challenging class-incremental benchmarks, RwF improves over existing prompt-based methods. On Split-ImageNet-R and Split-ImageNet-S, RwF outperforms prior prompt-based approaches by a large margin, even in few-shot learning regimes. These results indicate that embedding energy-based associative routing directly within the transformer backbone provides a principled and effective foundation for OCL.

0 Citations
0 Influential
11.5 Altmetric
57.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!