간섭 해소 (RI): 모델 병합 성능 향상을 위한 모델 분리
Resolving Interference (RI): Disentangling Models for Improved Model Merging
모델 병합은 특정 작업에 특화된 다양한 모델의 파라미터를 직접 결합하여 다중 작업 모델을 생성하는 것으로 나타났습니다. 그러나 독립적으로 훈련된 서로 다른 작업 모델은 종종 병합된 모델의 성능을 저하시키는 간섭 현상을 보입니다. 본 연구에서는 이러한 문제를 해결하기 위해, 병합된 모델의 표현이 구성 모델과 비교하여 나타나는 변화를 '작업 간 간섭'이라는 개념으로 공식적으로 정의합니다. 작업 간 간섭을 줄이는 것이 병합 성능을 향상시키는 데 핵심적인 역할을 합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 '간섭 해소 (Resolving Interference, RI)'라는 경량화된 적응 프레임워크를 제안합니다. RI는 전문가 모델을 기능적으로 서로 독립적인 상태로 분리하여 작업 간 간섭을 줄입니다. RI는 추가적으로 라벨이 없는 보조 데이터만을 입력으로 사용하므로 (즉, 작업 데이터가 필요하지 않음), 데이터가 부족한 환경에서도 적용될 수 있습니다. RI는 최첨단 병합 방법의 성능을 최대 3.8% 향상시키고, 새로운 도메인으로의 일반화 성능을 최대 2.3% 향상시키는 것을 확인했습니다. 또한, RI는 보조 데이터의 출처에 강건하며, 병합 하이퍼파라미터 조정에 덜 민감하다는 것을 확인했습니다. RI의 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/pramesh39/resolving_interference
Model merging has shown that multitask models can be created by directly combining the parameters of different models that are each specialized on tasks of interest. However, models trained independently on distinct tasks often exhibit interference that degrades the merged model's performance. To solve this problem, we formally define the notion of Cross-Task Interference as the drift in the representation of the merged model relative to its constituent models. Reducing cross-task interference is key to improving merging performance. To address this issue, we propose our method, Resolving Interference (RI), a light-weight adaptation framework which disentangles expert models to be functionally orthogonal to the space of other tasks, thereby reducing cross-task interference. RI does this whilst using only unlabeled auxiliary data as input (i.e., no task-data is needed), allowing it to be applied in data-scarce scenarios. RI consistently improves the performance of state-of-the-art merging methods by up to 3.8% and generalization to unseen domains by up to 2.3%. We also find RI to be robust to the source of auxiliary input while being significantly less sensitive to tuning of merging hyperparameters. Our codebase is available at: https://github.com/pramesh39/resolving_interference
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.