MergePipe: 확장 가능한 LLM 병합을 위한 비용 효율적인 파라미터 관리 시스템
MergePipe: A Budget-Aware Parameter Management System for Scalable LLM Merging
대규모 언어 모델(LLM) 병합은 현대 LLM 개발 파이프라인에서 핵심적인 기술로 자리 잡았습니다. 이를 통해 여러 작업 또는 도메인별 전문 모델을 재학습 없이 통합할 수 있습니다. 그러나 전문가 모델의 수가 증가함에 따라, 기존 병합 구현 방식은 모델 파라미터를 비정형 파일로 취급하고 상태가 없는 방식으로 한 번에 병합을 수행하여 과도한 디스크 I/O, 중복된 파라미터 스캔, 그리고 낮은 확장성을 초래합니다. 본 논문에서는 확장 가능한 LLM 병합을 위한 파라미터 관리 시스템인 **MergePipe**를 소개합니다. MergePipe는 LLM 병합을 데이터 관리 및 실행 문제로 처음으로 간주하고, 모델 파라미터, 병합 계획, 실행 흐름에 대한 카탈로그 기반 추상화를 도입합니다. MergePipe의 핵심은 비용을 고려한 플래너로, 전문가 파라미터의 I/O를 명시적으로 모델링하고 사용자가 지정한 I/O 제한을 적용하며, 트랜잭션 보장을 제공하는 스트리밍 실행 엔진을 사용합니다. 중요한 점은, 기본 모델 읽기 및 출력 쓰기는 불가피하지만, 전문가 파라미터 읽기가 병합 비용의 대부분을 차지하며, 주요 최적화 대상이라는 것입니다. MergePipe는 계획 및 실행 단계에서 전문가 접근에 대한 예산 제어를 통해 기존 파이프라인의 $O(K)$에 해당하는 I/O 증가를 완화하고 예측 가능한 확장성을 달성합니다. 실험 결과, MergePipe는 전체 I/O를 최대 10배까지 줄이고, 최첨단 LLM 병합 파이프라인에 비해 최대 11배의 엔드 투 엔드 속도 향상(최대 90%의 실제 시간 감소)을 제공합니다.
Large language model (LLM) merging has become a key technique in modern LLM development pipelines, enabling the integration of multiple task- or domain-specific expert models without retraining. However, as the number of experts grows, existing merging implementations treat model parameters as unstructured files and execute merges in a stateless, one-shot manner, leading to excessive disk I/O, redundant parameter scans, and poor scalability. In this paper, we present \textbf{MergePipe}, a parameter management system for scalable LLM merging. MergePipe is the first system that treats LLM merging as a data management and execution problem, and introduces a catalog-driven abstraction over model parameters, merge plans, and execution lineage. At its core, MergePipe employs a cost-aware planner that explicitly models expert parameter I/O and enforces user-specified I/O budgets, followed by a streaming execution engine that materializes merged models under transactional guarantees. Our key insight is that while base model reads and output writes are unavoidable, expert parameter reads dominate merge cost and constitute the primary optimization target. By making expert access budget-aware throughout planning and execution, MergePipe mitigates the $O(K)$ I/O growth of naive pipelines and achieves predictable scaling behavior. Experiments show that MergePipe reduces total I/O by up to an order of magnitude and delivers up to $11\times$ end-to-end speedups (up to 90\% wall-time reduction) over state-of-the-art LLM merging pipelines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.