온장 대규모 언어 모델을 위한 어댑터 데이터 기반 클러스터링 및 병합
Data-driven Clustering and Merging of Adapters for On-device Large Language Models
온장 대규모 언어 모델은 일반적으로 하위 작업에서 뛰어난 성능을 제공하기 위해 작업별 어댑터(예: LoRA)를 사용합니다. 모든 사용 가능한 어댑터를 저장하는 것은 메모리 제약으로 인해 비현실적이지만, 모바일 장치는 일반적으로 이러한 매개변수의 제한된 수를 저장할 수 있는 충분한 용량을 갖추고 있습니다. 이는 중요한 과제를 야기합니다. 즉, 여러 작업에 걸쳐 잘 일반화되는 대표적인 어댑터를 어떻게 선택할 것인가? 이는 기존 문헌에서 아직 탐구되지 않은 문제입니다. 우리는 최소한의 작업별 예제(예: 각 작업당 10개)를 활용하고, 클러스터 할당을 개선하기 위한 반복적인 최적화 프로세스를 사용하는 어댑터 클러스터링을 위한 새로운 방법인 D2C를 제안합니다. 각 클러스터 내의 어댑터는 병합되어 리소스 제약적인 장치에 배포할 수 있는 다중 작업 어댑터를 생성합니다. 실험 결과는 우리의 방법이 고려된 저장 용량 내에서 성능을 효과적으로 향상시킨다는 것을 보여줍니다.
On-device large language models commonly employ task-specific adapters (e.g., LoRAs) to deliver strong performance on downstream tasks. While storing all available adapters is impractical due to memory constraints, mobile devices typically have sufficient capacity to store a limited number of these parameters. This raises a critical challenge: how to select representative adapters that generalize well across multiple tasks - a problem that remains unexplored in existing literature. We propose a novel method D2C for adapter clustering that leverages minimal task-specific examples (e.g., 10 per task) and employs an iterative optimization process to refine cluster assignments. The adapters within each cluster are merged, creating multi-task adapters deployable on resource-constrained devices. Experimental results demonstrate that our method effectively boosts performance for considered storage budgets.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.