2602.04396v1 Feb 04, 2026 cs.LG

LoRDO: 드문 통신을 이용한 분산 저랭크 최적화

LoRDO: Distributed Low-Rank Optimization with Infrequent Communication

N. Lane
N. Lane
Citations: 383
h-index: 9
Xinchi Qiu
Xinchi Qiu
Citations: 1,761
h-index: 11
Andrej Jovanovi'c
Andrej Jovanovi'c
Citations: 1
h-index: 1
Alexandru Iacob
Alexandru Iacob
Citations: 133
h-index: 6
Mher Safaryan
Mher Safaryan
YSU
Citations: 783
h-index: 12
Ionut-Vlad Modoranu
Ionut-Vlad Modoranu
Citations: 167
h-index: 6
Lorenzo Sani
Lorenzo Sani
Citations: 175
h-index: 6
William F. Shen
William F. Shen
Citations: 109
h-index: 6
Dan Alistarh
Dan Alistarh
Citations: 13,922
h-index: 42

$ exttt{DDP}$를 이용한 기초 모델의 분산 학습은 인터커넥트 대역폭에 의해 제한됩니다. 드문 통신 전략은 동기화 빈도를 줄이지만, 여전히 옵티마이저 상태의 메모리 및 통신 요구 사항으로 인해 병목 현상이 발생합니다. 저랭크 옵티마이저는 이러한 제약을 완화할 수 있지만, 로컬 업데이트 방식에서는 작업자가 저랭크 투영을 계산하는 데 필요한 전체 배치 기울기에 접근할 수 없기 때문에 성능이 저하됩니다. 우리는 저랭크 최적화와 드문 동기화를 통합하는 체계적인 프레임워크인 $ exttt{LoRDO}$를 제안합니다. 먼저, 가짜 기울기를 기반으로 한 글로벌 투영은 이론적으로 우수하지만, 최적화 경로를 영구적으로 저랭크 부분 공간으로 제한한다는 것을 보여줍니다. 부분 공간 탐색을 복원하기 위해, 우리는 완전 랭크의 준-쌍곡선 업데이트를 도입합니다. $ exttt{LoRDO}$는 언어 모델링 및 다운스트림 작업에서 $125$M--$720$M 크기의 모델에서 저랭크 $ exttt{DDP}$와 거의 동등한 성능을 달성하면서 통신량을 약 $10$배 줄입니다. 마지막으로, $ exttt{LoRDO}$가 매우 낮은 메모리 환경에서 작은 랭크/배치 크기를 사용할 때 더 나은 성능을 향상시키는 것을 보여줍니다.

Original Abstract

Distributed training of foundation models via $\texttt{DDP}$ is limited by interconnect bandwidth. While infrequent communication strategies reduce synchronization frequency, they remain bottlenecked by the memory and communication requirements of optimizer states. Low-rank optimizers can alleviate these constraints; however, in the local-update regime, workers lack access to the full-batch gradients required to compute low-rank projections, which degrades performance. We propose $\texttt{LoRDO}$, a principled framework unifying low-rank optimization with infrequent synchronization. We first demonstrate that, while global projections based on pseudo-gradients are theoretically superior, they permanently restrict the optimization trajectory to a low-rank subspace. To restore subspace exploration, we introduce a full-rank quasi-hyperbolic update. $\texttt{LoRDO}$ achieves near-parity with low-rank $\texttt{DDP}$ in language modeling and downstream tasks at model scales of $125$M--$720$M, while reducing communication by $\approx 10 \times$. Finally, we show that $\texttt{LoRDO}$ improves performance even more in very low-memory settings with small rank/batch size.

1 Citations
0 Influential
21 Altmetric
106.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!