HALO: 의미 기반 분산 LLM 추론 시스템 - 손실 연결 환경에서의 엣지 네트워크 활용
HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network
대규모 언어 모델(LLM)의 추론을 엣지에서 실행하면 서비스 응답성을 향상시키면서 사용자 프라이버시를 보호할 수 있습니다. 그러나 단일 엣지 노드의 제한된 리소스는 이러한 구현에 심각한 어려움을 야기합니다. 분산 추론은 여러 장치에 걸쳐 컴퓨팅 리소스를 통합하고 활용하는 방법으로 등장했습니다. 그러나 기존 방법은 종종 비실행 가능한 엄격한 동기화를 요구하는데, 이는 불안정한 네트워크 환경으로 인해 문제가 됩니다. 본 논문에서는 손실 연결 환경에서 분산 LLM 추론 성능을 향상시키는 새로운 프레임워크인 HALO를 제안합니다. HALO의 핵심 아이디어는 덜 중요한 뉴런 그룹을 불안정한 장치에 전략적으로 할당하여 느린 패킷으로 인한 과도한 대기 시간을 피함으로써, 느슨하면서도 효과적인 동기화를 가능하게 하는 것입니다. HALO는 세 가지 주요 메커니즘을 도입합니다. (1) 활성화 전에 뉴런 그룹의 중요도를 평가하는 의미 기반 예측기, (2) 모델 추론 중 뉴런 그룹 로딩의 병렬 실행 방식, (3) 다양한 리소스를 가진 여러 장치를 효율적으로 관리하는 로드 밸런싱 스케줄러. Raspberry Pi 클러스터를 사용한 실험 결과, HALO는 불안정한 네트워크 환경에서 LLaMA 시리즈 LLM에 대해 3.41배의 전체 속도 향상을 달성했습니다. HALO는 최적 조건과 유사한 성능을 유지하며 다양한 시나리오에서 최첨단 기술보다 훨씬 뛰어난 성능을 보입니다.
The deployment of large language models' (LLMs) inference at the edge can facilitate prompt service responsiveness while protecting user privacy. However, it is critically challenged by the resource constraints of a single edge node. Distributed inference has emerged to aggregate and leverage computational resources across multiple devices. Yet, existing methods typically require strict synchronization, which is often infeasible due to the unreliable network conditions. In this paper, we propose HALO, a novel framework that can boost the distributed LLM inference in lossy edge network. The core idea is to enable a relaxed yet effective synchronization by strategically allocating less critical neuron groups to unstable devices, thus avoiding the excessive waiting time incurred by delayed packets. HALO introduces three key mechanisms: (1) a semantic-aware predictor to assess the significance of neuron groups prior to activation. (2) a parallel execution scheme of neuron group loading during the model inference. (3) a load-balancing scheduler that efficiently orchestrates multiple devices with heterogeneous resources. Experimental results from a Raspberry Pi cluster demonstrate that HALO achieves a 3.41x end-to-end speedup for LLaMA-series LLMs under unreliable network conditions. It maintains performance comparable to optimal conditions and significantly outperforms the state-of-the-art in various scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.