지도 학습 기반 미세 조정의 계층별 분석
A Layer-wise Analysis of Supervised Fine-Tuning
지도 학습 기반 미세 조정(SFT)은 모델 정렬에 매우 중요하지만, 동시에 파국적 망각(catastrophic forgetting)의 위험을 수반하며, 각 계층에서 지시문 이해 능력이 어떻게 나타나는지에 대한 명확한 이해는 부족합니다. 본 연구에서는 정보 이론적, 기하학적, 최적화 지표를 활용하여 다양한 규모(1B-32B)의 모델에 대한 종합적인 분석을 통해 이러한 메커니즘을 조사합니다. 실험 결과, 계층 깊이에 따른 뚜렷한 패턴이 나타났습니다. 중간 계층(20%-80%)은 안정적인 반면, 마지막 계층은 민감도가 높은 것으로 나타났습니다. 이러한 통찰력을 바탕으로, 본 연구에서는 중요한 중간 계층만을 선택적으로 업데이트하는 '미들 블록 효율적 미세 조정(Mid-Block Efficient Tuning)' 방법을 제안합니다. 실험적으로, 제안하는 방법은 표준 LoRA 방식보다 GSM8K (OLMo2-7B) 데이터셋에서 최대 10.2% 더 높은 성능을 보였으며, 파라미터 사용량 감소 효과도 있었습니다. 이는 효과적인 정렬이 분산적으로 나타나는 것이 아니라, 특정 구조 내에서 발생하는 현상임을 시사합니다. 본 연구의 코드는 다음 링크에서 공개적으로 이용할 수 있습니다: https://anonymous.4open.science/r/base_sft
While critical for alignment, Supervised Fine-Tuning (SFT) incurs the risk of catastrophic forgetting, yet the layer-wise emergence of instruction-following capabilities remains elusive. We investigate this mechanism via a comprehensive analysis utilizing information-theoretic, geometric, and optimization metrics across model scales (1B-32B). Our experiments reveal a distinct depth-dependent pattern: middle layers (20\%-80\%) are stable, whereas final layers exhibit high sensitivity. Leveraging this insight, we propose Mid-Block Efficient Tuning, which selectively updates these critical intermediate layers. Empirically, our method outperforms standard LoRA up to 10.2\% on GSM8K (OLMo2-7B) with reduced parameter overhead, demonstrating that effective alignment is architecturally localized rather than distributed. The code is publicly available at https://anonymous.4open.science/r/base_sft.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.