2602.04396v1 Feb 04, 2026 cs.LG

LoRDO: 드문 통신을 이용한 분산 저랭크 최적화

LoRDO: Distributed Low-Rank Optimization with Infrequent Communication

N. Lane
N. Lane
Citations: 341
h-index: 9
Xinchi Qiu
Xinchi Qiu
Citations: 1,664
h-index: 11
Andrej Jovanovi'c
Andrej Jovanovi'c
Citations: 0
h-index: 0
Alexandru Iacob
Alexandru Iacob
Citations: 125
h-index: 6
Mher Safaryan
Mher Safaryan
YSU
Citations: 761
h-index: 12
Ionut-Vlad Modoranu
Ionut-Vlad Modoranu
Citations: 159
h-index: 6
Lorenzo Sani
Lorenzo Sani
Citations: 155
h-index: 6
William F. Shen
William F. Shen
Citations: 100
h-index: 5
Dan Alistarh
Dan Alistarh
Citations: 13,362
h-index: 42

$ exttt{DDP}$를 이용한 기초 모델의 분산 학습은 인터커넥트 대역폭에 의해 제한됩니다. 드문 통신 전략은 동기화 빈도를 줄이지만, 여전히 옵티마이저 상태의 메모리 및 통신 요구 사항으로 인해 병목 현상이 발생합니다. 저랭크 옵티마이저는 이러한 제약을 완화할 수 있지만, 로컬 업데이트 방식에서는 작업자가 저랭크 투영을 계산하는 데 필요한 전체 배치 기울기에 접근할 수 없기 때문에 성능이 저하됩니다. 우리는 저랭크 최적화와 드문 동기화를 통합하는 체계적인 프레임워크인 $ exttt{LoRDO}$를 제안합니다. 먼저, 가짜 기울기를 기반으로 한 글로벌 투영은 이론적으로 우수하지만, 최적화 경로를 영구적으로 저랭크 부분 공간으로 제한한다는 것을 보여줍니다. 부분 공간 탐색을 복원하기 위해, 우리는 완전 랭크의 준-쌍곡선 업데이트를 도입합니다. $ exttt{LoRDO}$는 언어 모델링 및 다운스트림 작업에서 $125$M--$720$M 크기의 모델에서 저랭크 $ exttt{DDP}$와 거의 동등한 성능을 달성하면서 통신량을 약 $10$배 줄입니다. 마지막으로, $ exttt{LoRDO}$가 매우 낮은 메모리 환경에서 작은 랭크/배치 크기를 사용할 때 더 나은 성능을 향상시키는 것을 보여줍니다.

Original Abstract

Distributed training of foundation models via $\texttt{DDP}$ is limited by interconnect bandwidth. While infrequent communication strategies reduce synchronization frequency, they remain bottlenecked by the memory and communication requirements of optimizer states. Low-rank optimizers can alleviate these constraints; however, in the local-update regime, workers lack access to the full-batch gradients required to compute low-rank projections, which degrades performance. We propose $\texttt{LoRDO}$, a principled framework unifying low-rank optimization with infrequent synchronization. We first demonstrate that, while global projections based on pseudo-gradients are theoretically superior, they permanently restrict the optimization trajectory to a low-rank subspace. To restore subspace exploration, we introduce a full-rank quasi-hyperbolic update. $\texttt{LoRDO}$ achieves near-parity with low-rank $\texttt{DDP}$ in language modeling and downstream tasks at model scales of $125$M--$720$M, while reducing communication by $\approx 10 \times$. Finally, we show that $\texttt{LoRDO}$ improves performance even more in very low-memory settings with small rank/batch size.

0 Citations
0 Influential
21 Altmetric
105.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!