공유 지식이 오히려 악영향을 미치는 경우: 모델 병합 시 스펙트럴 과적집 현상
When Shared Knowledge Hurts: Spectral Over-Accumulation in Model Merging
모델 병합은 여러 개의 미세 조정된 모델을 하나의 모델로 결합하는 방식으로, 재학습에 비해 가벼운 대안을 제공합니다. 기존 방법은 주로 작업 업데이트 간의 충돌을 해결하는 데 초점을 맞추고 있으며, 공유 지식의 과도한 누적이라는 문제점은 간과되어 왔습니다. 본 연구에서는 작업들이 일치된 스펙트럴 방향(즉, 겹치는 고유 벡터)을 공유할 때, 단순한 선형 결합을 통해 이러한 방향들이 반복적으로 누적되어 고유 값을 증가시키고 병합된 모델을 공유 서브스페이스 쪽으로 편향시킨다는 것을 보여줍니다. 이러한 문제를 완화하기 위해, 본 연구에서는 학습 과정이나 데이터 없이 서브스페이스의 중복 정도를 측정하고 증가된 고유 값을 재조정하여 균형 잡힌 스펙트럼을 복원하는 후처리 방법인 Singular Value Calibration (SVC)을 제안합니다. 다양한 시각 및 언어 벤치마크에서 SVC는 강력한 병합 기준 성능을 지속적으로 개선하며 최첨단 성능을 달성합니다. 또한, 고유 값만을 수정함으로써 SVC는 Task Arithmetic의 성능을 13.0% 향상시킵니다. 코드: https://github.com/lyymuwu/SVC
Model merging combines multiple fine-tuned models into a single model by adding their weight updates, providing a lightweight alternative to retraining. Existing methods primarily target resolving conflicts between task updates, leaving the failure mode of over-counting shared knowledge unaddressed. We show that when tasks share aligned spectral directions (i.e., overlapping singular vectors), a simple linear combination repeatedly accumulates these directions, inflating the singular values and biasing the merged model toward shared subspaces. To mitigate this issue, we propose Singular Value Calibration (SVC), a training-free and data-free post-processing method that quantifies subspace overlap and rescales inflated singular values to restore a balanced spectrum. Across vision and language benchmarks, SVC consistently improves strong merging baselines and achieves state-of-the-art performance. Furthermore, by modifying only the singular values, SVC improves the performance of Task Arithmetic by 13.0%. Code is available at: https://github.com/lyymuwu/SVC.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.