2602.05605v1 Feb 05, 2026 cs.LG

Shiva-DiT: 효율적인 디퓨전 트랜스포머를 위한 잔차 기반 미분 가능한 Top-k 선택 방법

Shiva-DiT: Residual-Based Differentiable Top-$k$ Selection for Efficient Diffusion Transformers

Jiaji Zhang
Jiaji Zhang
Citations: 1
h-index: 1
Hailiang Zhao
Hailiang Zhao
Citations: 4
h-index: 1
Guoxuan Zhu
Guoxuan Zhu
Citations: 1
h-index: 1
Ruichao Sun
Ruichao Sun
Citations: 0
h-index: 0
Jiaju Wu
Jiaju Wu
Citations: 31
h-index: 2
Xinkui Zhao
Xinkui Zhao
Citations: 12
h-index: 1
Hanlin Tang
Hanlin Tang
Citations: 2,270
h-index: 18
Weiyi Lu
Weiyi Lu
Citations: 19
h-index: 3
Kan Liu
Kan Liu
Citations: 32
h-index: 4
Tao Lan
Tao Lan
Citations: 23
h-index: 3
Lin Qu
Lin Qu
Citations: 206
h-index: 7
Shuiguang Deng
Shuiguang Deng
Citations: 34
h-index: 4

디퓨전 트랜스포머(DiT)는 자체 주의(self-attention) 메커니즘의 2차 함수적 스케일링으로 인해 상당한 계산 비용을 발생시킵니다. 기존의 가지치기 방법은 미분 가능성, 효율성, 그리고 하드웨어 오버헤드를 위한 엄격한 정적 예산 요구 사항을 동시에 만족시키지 못합니다. 이러한 문제를 해결하기 위해, 우리는 잔차 기반 미분 가능한 Top-k 선택 방법을 활용하여 이러한 상충되는 요구 사항을 효과적으로 조화시키는 Shiva-DiT를 제안합니다. 우리의 방법은 잔차를 고려한 스트레이트-쓰루 추정기를 활용하여 정적 컴파일을 위한 결정적인 토큰 수를 강제하면서, 잔차 그래디언트 추정을 통해 엔드 투 엔드 학습 가능성을 유지합니다. 또한, 컨텍스트 인식 라우터와 적응형 비율 정책을 도입하여 자율적으로 적응형 가지치기 일정을 학습합니다. SD3.5를 포함한 주요 모델에 대한 실험 결과, Shiva-DiT는 기존의 기준 성능보다 1.54배 빠른 처리 속도를 달성하고, 더 높은 정확도를 제공하며, 불규칙한 텐서 오버헤드를 효과적으로 제거하여 새로운 Pareto 최적점을 제시합니다.

Original Abstract

Diffusion Transformers (DiTs) incur prohibitive computational costs due to the quadratic scaling of self-attention. Existing pruning methods fail to simultaneously satisfy differentiability, efficiency, and the strict static budgets required for hardware overhead. To address this, we propose Shiva-DiT, which effectively reconciles these conflicting requirements via Residual-Based Differentiable Top-$k$ Selection. By leveraging a residual-aware straight-through estimator, our method enforces deterministic token counts for static compilation while preserving end-to-end learnability through residual gradient estimation. Furthermore, we introduce a Context-Aware Router and Adaptive Ratio Policy to autonomously learn an adaptive pruning schedule. Experiments on mainstream models, including SD3.5, demonstrate that Shiva-DiT establishes a new Pareto frontier, achieving a 1.54$\times$ wall-clock speedup with superior fidelity compared to existing baselines, effectively eliminating ragged tensor overheads.

0 Citations
0 Influential
9 Altmetric
45.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!