JumpLoRA: 대규모 언어 모델의 지속적 학습을 위한 희소 어댑터
JumpLoRA: Sparse Adapters for Continual Learning in Large Language Models
어댑터 기반 방법은 각 작업에 대해 저차원 업데이트 행렬을 순차적으로 학습함으로써 대규모 언어 모델(LLM)의 지속적 학습(CL)에 있어 비용 효율적인 접근 방식이 되었습니다. 재앙적 망각을 완화하기 위해 최첨단 방법은 하위 공간 또는 좌표별 간섭을 대상으로 하여 이전 어댑터에 대한 제약을 새로운 어댑터에 적용합니다. 본 논문에서는 JumpReLU 게이팅을 사용하여 저차원 적응(LoRA) 블록에서 적응적으로 희소성을 유도하는 새로운 프레임워크인 JumpLoRA를 제안합니다. 이 방법은 동적인 매개변수 격리를 달성하여 작업 간 간섭을 방지하는 데 도움이 됩니다. 당사 방법이 매우 모듈화되어 있으며 LoRA 기반 CL 접근 방식과 호환된다는 것을 보여줍니다. 특히, IncLoRA의 성능을 크게 향상시키며, 선도적인 최첨단 CL 방법인 ELLA보다 뛰어난 성능을 보입니다.
Adapter-based methods have become a cost-effective approach to continual learning (CL) for Large Language Models (LLMs), by sequentially learning a low-rank update matrix for each task. To mitigate catastrophic forgetting, state-of-the-art approaches impose constraints on new adapters with respect to the previous ones, by targeting either subspace or coordinate-wise interference. In this paper, we propose JumpLoRA, a novel framework to adaptively induce sparsity in the Low-Rank Adaptation (LoRA) blocks through the use of JumpReLU gating. The method achieves dynamic parameter isolation, which helps prevent task interference. We demonstrate that our method is highly modular and compatible with LoRA-based CL approaches. Specifically, it significantly boosts the performance of IncLoRA and outperforms the leading state-of-the-art CL method, ELLA.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.