ALTO: 이기종 LoRA 학습 워크로드에 대한 적응형 LoRA 튜닝 및 오케스트레이션
ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads
로우 랭크 어댑테이션(LoRA)은 현재 대규모 언어 모델의 효율적인 파라미터 미세 조정을 위한 주요 방법이지만, 고품질 어댑터를 얻기 위해서는 LoRA의 성능이 구성 요소에 매우 민감하기 때문에 체계적인 하이퍼파라미터 튜닝이 종종 필요합니다. 실제로 이는 다중 테넌트 환경에서 다양한 작업에 걸쳐 많은 LoRA 작업을 동시에 실행하는 상황으로 이어지며, 기존 시스템은 이러한 작업을 대부분 독립적으로 처리하여, 성능이 낮은 후보 작업에 불필요한 연산을 수행하고 GPU 활용률을 낮추는 문제를 야기합니다. 본 논문에서는 LoRA 하이퍼파라미터 튜닝을 가속화하고 이기종 작업 간의 효율적인 클러스터 공유를 가능하게 하는 공동 설계 훈련 시스템인 ALTO(Adaptive LoRA Tuning and Orchestration)를 제안합니다. ALTO의 핵심 아이디어는 공유된 기본 모델(frozen backbone)에서 여러 튜닝 작업이 동시에 실행될 때, 단일 작업 설계로는 활용할 수 없는 최적화 기회를 제공한다는 것입니다. ALTO는 손실 추이를 모니터링하여 유망하지 않은 구성을 조기에 종료하고, 새로운 랭크 로컬 어댑터 병렬 처리와 함께 퓨즈된 그룹화된 GEMM 연산을 사용하여 생존 어댑터를 함께 배치하고 해제된 GPU 용량을 회수하며, 작업 내부 및 작업 간 스케줄링을 결합하여 LoRA 작업의 예측 가능한 실행 시간을 활용하여 다중 작업 배치 효율성을 향상시킵니다. 광범위한 실험 결과, ALTO는 어댑터 품질을 희생하지 않고 최첨단 시스템보다 최대 13.8배의 속도 향상을 달성함을 보여줍니다.
Low-Rank Adaptation (LoRA) is now the dominant method for parameter-efficient fine-tuning of large language models, but achieving a high-quality adapter often requires systematic hyperparameter tuning because LoRA performance is highly sensitive to configuration choices. In practice, this leads to many concurrent LoRA jobs, often spanning heterogeneous tasks in multi-tenant environments. Existing systems largely handle these jobs independently, which both wastes computation on weak candidates and leaves GPUs underutilized. We present ALTO (Adaptive LoRA Tuning and Orchestration), a co-designed training system that accelerates LoRA hyperparameter tuning while enabling efficient cluster sharing across heterogeneous tasks. The central insight behind ALTO is that when multiple tuning jobs run concurrently over a shared frozen backbone, they expose optimization opportunities that single-job designs cannot exploit. Building on this, ALTO monitors loss trajectories to terminate unpromising configurations early, uses fused grouped GEMM together with a new rank-local adapter parallelism to co-locate surviving adapters and reclaim freed GPU capacity, and combines intra-task and inter-task scheduling to improve multi-task placement by leveraging the predictable duration of LoRA jobs. Extensive evaluation shows that ALTO achieves up to $13.8\times$ speedup over state-of-the-art without sacrificing adapter quality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.