2602.13273v1 Feb 05, 2026 cs.DB

MergePipe: 확장 가능한 LLM 병합을 위한 비용 효율적인 파라미터 관리 시스템

MergePipe: A Budget-Aware Parameter Management System for Scalable LLM Merging

Jianmin Wu
Jianmin Wu
Citations: 8
h-index: 1
Yifan Yang
Yifan Yang
Citations: 16
h-index: 2
Zihao Wang
Zihao Wang
Citations: 107
h-index: 6
Kunxi Li
Kunxi Li
Citations: 0
h-index: 0
Yuanyi Wang
Yuanyi Wang
Citations: 11
h-index: 2
Yanggan Gu
Yanggan Gu
Citations: 11
h-index: 2
Zhaoyi Yan
Zhaoyi Yan
Citations: 31
h-index: 3
Congkai Xie
Congkai Xie
Citations: 176
h-index: 4
Hongxia Yang
Hongxia Yang
Citations: 0
h-index: 0

대규모 언어 모델(LLM) 병합은 현대 LLM 개발 파이프라인에서 핵심적인 기술로 자리 잡았습니다. 이를 통해 여러 작업 또는 도메인별 전문 모델을 재학습 없이 통합할 수 있습니다. 그러나 전문가 모델의 수가 증가함에 따라, 기존 병합 구현 방식은 모델 파라미터를 비정형 파일로 취급하고 상태가 없는 방식으로 한 번에 병합을 수행하여 과도한 디스크 I/O, 중복된 파라미터 스캔, 그리고 낮은 확장성을 초래합니다. 본 논문에서는 확장 가능한 LLM 병합을 위한 파라미터 관리 시스템인 **MergePipe**를 소개합니다. MergePipe는 LLM 병합을 데이터 관리 및 실행 문제로 처음으로 간주하고, 모델 파라미터, 병합 계획, 실행 흐름에 대한 카탈로그 기반 추상화를 도입합니다. MergePipe의 핵심은 비용을 고려한 플래너로, 전문가 파라미터의 I/O를 명시적으로 모델링하고 사용자가 지정한 I/O 제한을 적용하며, 트랜잭션 보장을 제공하는 스트리밍 실행 엔진을 사용합니다. 중요한 점은, 기본 모델 읽기 및 출력 쓰기는 불가피하지만, 전문가 파라미터 읽기가 병합 비용의 대부분을 차지하며, 주요 최적화 대상이라는 것입니다. MergePipe는 계획 및 실행 단계에서 전문가 접근에 대한 예산 제어를 통해 기존 파이프라인의 $O(K)$에 해당하는 I/O 증가를 완화하고 예측 가능한 확장성을 달성합니다. 실험 결과, MergePipe는 전체 I/O를 최대 10배까지 줄이고, 최첨단 LLM 병합 파이프라인에 비해 최대 11배의 엔드 투 엔드 속도 향상(최대 90%의 실제 시간 감소)을 제공합니다.

Original Abstract

Large language model (LLM) merging has become a key technique in modern LLM development pipelines, enabling the integration of multiple task- or domain-specific expert models without retraining. However, as the number of experts grows, existing merging implementations treat model parameters as unstructured files and execute merges in a stateless, one-shot manner, leading to excessive disk I/O, redundant parameter scans, and poor scalability. In this paper, we present \textbf{MergePipe}, a parameter management system for scalable LLM merging. MergePipe is the first system that treats LLM merging as a data management and execution problem, and introduces a catalog-driven abstraction over model parameters, merge plans, and execution lineage. At its core, MergePipe employs a cost-aware planner that explicitly models expert parameter I/O and enforces user-specified I/O budgets, followed by a streaming execution engine that materializes merged models under transactional guarantees. Our key insight is that while base model reads and output writes are unavoidable, expert parameter reads dominate merge cost and constitute the primary optimization target. By making expert access budget-aware throughout planning and execution, MergePipe mitigates the $O(K)$ I/O growth of naive pipelines and achieves predictable scaling behavior. Experiments show that MergePipe reduces total I/O by up to an order of magnitude and delivers up to $11\times$ end-to-end speedups (up to 90\% wall-time reduction) over state-of-the-art LLM merging pipelines.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!