Spava: 시퀀스 병렬 처리 및 근사 어텐션 기반 장영상 이해 가속화
Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention
장영상 추론의 효율성은 여전히 중요한 병목 현상이며, 이는 주로 대규모 멀티모달 모델(LMM)의 프리필 단계에서 발생하는 밀집적인 계산 때문입니다. 기존 방법들은 시각적 임베딩을 압축하거나 단일 GPU에서 희소 어텐션을 적용하여 제한적인 가속 효과를 얻거나 성능 저하를 야기하며, LMM이 더 길고 복잡한 영상을 처리하는 것을 제한합니다. 이러한 문제점을 해결하기 위해, 우리는 시퀀스 병렬 처리 프레임워크인 Spava를 제안합니다. Spava는 최적화된 어텐션을 사용하여 여러 GPU에서 장영상 추론을 가속화합니다. Spava는 근사 어텐션을 분산하여 계산량을 줄이고 병렬성을 높여 압축 없이 더 많은 시각적 임베딩을 효율적으로 처리함으로써 작업 성능을 향상시킵니다. 로드 밸런싱 및 퓨즈된 순방향 패스 등의 시스템 레벨 최적화는 Spava의 잠재력을 더욱 향상시켜 FlashAttn, ZigZagRing, APB에 비해 각각 12.72배, 1.70배, 1.18배의 속도 향상을 제공하며, 눈에 띄는 성능 저하 없이 이러한 효과를 달성합니다. 코드: https://github.com/thunlp/APB
The efficiency of long-video inference remains a critical bottleneck, mainly due to the dense computation in the prefill stage of Large Multimodal Models (LMMs). Existing methods either compress visual embeddings or apply sparse attention on a single GPU, yielding limited acceleration or degraded performance and restricting LMMs from handling longer, more complex videos. To overcome these issues, we propose Spava, a sequence-parallel framework with optimized attention that accelerates long-video inference across multiple GPUs. By distributing approximate attention, Spava reduces computation and increases parallelism, enabling efficient processing of more visual embeddings without compression and thereby improving task performance. System-level optimizations, such as load balancing and fused forward passes, further unleash the potential of Spava, delivering speedups of 12.72x, 1.70x, and 1.18x over FlashAttn, ZigZagRing, and APB, without notable performance loss. Code available at https://github.com/thunlp/APB
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.