대규모 언어 모델의 파라미터 효율적인 미세 조정에서 레이어 배치 이해 및 가이드라인 제시
Understanding and Guiding Layer Placement in Parameter-Efficient Fine-Tuning of Large Language Models
대규모 언어 모델(LLM)이 계속 성장함에 따라, 전체 파라미터를 미세 조정하는 데 드는 비용 때문에 파라미터 효율적인 미세 조정(PEFT)이 다운스트림 적응을 위한 주요 전략이 되었습니다. 확장 가능한 서비스에서의 추론 지연 제약과 엣지 환경 또는 빠른 배포 환경에서의 미세 조정 비용 때문에 어떤 레이어를 미세 조정할지 선택하는 것은 불가피합니다. 하지만 현재의 일반적인 방식은 PEFT를 모든 레이어에 균일하게 적용하며, 레이어 선택에 대한 이해나 활용은 제한적입니다. 본 논문에서는 동결된 기본 모델 위에 통합된 투영 잔차 관점을 사용하여 PEFT를 분석합니다. 로컬 이차 근사 하에서, 레이어별 적응은 다음 세 가지 요소에 의해 결정됩니다. (i) 투영 잔차 정규화(resnorm), 이는 레이어가 얼마나 많은 수정 가능한 편향을 포착할 수 있는지 측정합니다. (ii) 활성화 에너지, 이는 특징 조건을 결정합니다. (iii) 레이어 결합, 이는 레이어 간 잔차의 상호 작용 강도를 나타냅니다. 제곱 손실 및 선형 어댑터를 사용하는 경우, resnorm은 정규화된 기울기 정규화와 같으며, 활성화 에너지는 비정상 상태 및 노이즈 증폭을 제어하고, 약한 결합은 대략적인 레이어별 기여도를 나타냄을 보여줍니다. 이러한 통찰력을 바탕으로, 특정 모델의 각 레이어에 대한 잔차 신호 강도, 계산 비용 및 성능을 요약하는 재사용 가능한 진단 도구인 Layer Card를 소개합니다. 동일한 모델과 LoRA 구성을 사용하여, Layer Card를 통해 레이어 배치 선택을 최적화함으로써 성능 극대화 또는 미세 조정 비용 감소와 같은 다양한 목표를 유연하게 우선시할 수 있습니다. 또한, Qwen3-8B 모델에서, 선택적으로 일부 레이어만 미세 조정하면 전체 레이어를 미세 조정하는 것과 거의 동일한 성능을 달성하면서 미세 조정 비용과 추론 시 어댑터가 추가된 레이어 수를 크게 줄일 수 있으며, 이는 전체 레이어 삽입 방식보다 비용 효율성이 더 뛰어난 대안입니다.
As large language models (LLMs) continue to grow, the cost of full-parameter fine-tuning has made parameter-efficient fine-tuning (PEFT) the default strategy for downstream adaptation. Constraints from inference latency in scalable serving and fine-tuning cost in edge or rapid-deployment settings make the choice of which layers to fine-tune unavoidable. Yet current practice typically applies PEFT uniformly across all layers, with limited understanding or leverage of layer selection. This paper develops a unified projected residual view of PEFT on top of a frozen base model. Under a local quadratic approximation, layerwise adaptation is governed by three quantities: (i) the projected residual norm (resnorm), which measures how much correctable bias a layer can capture; (ii) the activation energy, which determines feature conditioning; and (iii) layer coupling, which quantifies how strongly residuals interact across layers. We show that, for squared loss and linear adapters, the resnorm equals a normalized gradient norm, activation energy controls ill-conditioning and noise amplification, and weak coupling yields approximately additive layerwise contributions. Building on these insights, we introduce the Layer Card, a reusable diagnostic that summarizes residual signal strength, compute cost, and performance for each layer of a given model. With an identical model and LoRA configuration, Layer Card-guided placement refines the choice of adapted layers to flexibly prioritize different objectives, such as maximizing performance or reducing fine-tuning cost. Moreover, on Qwen3-8B, we show that selectively adapting a subset of layers can achieve performance close to full-layer LoRA while substantially reducing fine-tuning cost and the number of adapter-augmented layers during inference, offering a more cost-performance-aware alternative to full-layer insertion.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.