어댑터 배치 방식 재고찰: 주요 적응 모듈 관점
Rethinking Adapter Placement: A Dominant Adaptation Module Perspective
LoRA (Low-Rank Adaptation)는 널리 사용되는 파라미터 효율적인 미세 조정 방법으로, 훈련 가능한 저랭크 어댑터를 동결된 사전 훈련 모델에 배치합니다. 최근 연구에 따르면, 더 적은 수의 LoRA 어댑터를 사용하더라도 성능을 유지하거나 오히려 향상시킬 수 있지만, 기존 방법은 여전히 어댑터를 넓게 분포시키고 있으며, 성능을 극대화하기 위해 제한된 수의 어댑터를 어디에 배치해야 하는지에 대한 문제는 여전히 명확하지 않습니다. 이를 조사하기 위해, 우리는 각 후보 LoRA 어댑터에 사용 가능한 초기 훈련 가능한 그래디언트 에너지를 추정하는 그래디언트 기반 민감도 측정 도구인 PAGE (Projected Adapter Gradient Energy)를 소개합니다. 놀랍게도, PAGE는 두 가지 모델 아키텍처와 네 가지 downstream 작업에서 단일한 얕은 FFN (Feed Forward Network) 하위 투영에 매우 집중되어 있음을 발견했습니다. 우리는 이 모듈을 '주요 적응 모듈'이라고 명명하고, 그 레이어 인덱스는 아키텍처에 따라 다르지만 작업에 따라 안정적임을 보여줍니다. 이 발견에 영감을 받아, 우리는 '주요 적응 모듈'에 단일 어댑터를 배치하는 방법인 DomLoRA를 제안합니다. DomLoRA는 일반적인 LoRA의 훈련 가능한 파라미터의 약 0.7%만을 사용하면서, instruction following, 수학적 추론, 코드 생성 및 다중 턴 대화와 같은 다양한 downstream 작업에서 평균적으로 더 우수한 성능을 보입니다. 또한, 이 방법은 다른 LoRA 변형의 성능도 향상시켜, 주요 적응 모듈 관점을 실용적인 배치 지침으로 뒷받침합니다.
Low-rank adaptation (LoRA) is a widely used parameter-efficient fine-tuning method that places trainable low-rank adapters into frozen pre-trained models. Recent studies show that using fewer LoRA adapters may still maintain or even improve performance, but existing methods still distribute adapters broadly, leaving where to place a limited number of adapters to maximize performance largely open. To investigate this, we introduce PAGE (Projected Adapter Gradient Energy), a gradient-based sensitivity probe that estimates the initial trainable gradient energy available to each candidate LoRA adapter. Surprisingly, we find that PAGE is highly concentrated on a single shallow FFN down-projection across two model families and four downstream tasks. We term this module the dominant adaptation module and show that its layer index is architecture-dependent but task-stable. Motivated by this finding, we propose DomLoRA, a placement method that places a single adapter at the dominant adaptation module. With only ~0.7% of vanilla LoRA's trainable parameters, DomLoRA outperforms it on average across various downstream tasks, including instruction following, mathematical reasoning, code generation, and multi-turn conversation. This method also improves other LoRA variants, supporting the dominant adaptation module perspective as a practical placement guideline.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.