Efficient-LVSM: 분리된 공동 정제 어텐션을 통한 더욱 빠르고 저렴하며 뛰어난 대규모 뷰 합성 모델
Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention
최근 신규 뷰 합성(NVS) 분야에서 트랜스포머 기반 방법인 LVSM과 같이 모든 입력 및 대상 뷰 간의 어텐션을 활용한 순방향 모델이 발전해 왔습니다. 본 연구에서는 LVSM의 전체적인 셀프 어텐션 구조가 최적이 아니며, 입력 뷰의 개수에 따라 2차 복잡도를 가지며, 이질적인 토큰 간에 경직된 파라미터 공유 문제를 겪는다는 것을 주장합니다. 우리는 이러한 문제점을 해결하기 위해 분리된 공동 정제 메커니즘을 사용하는 이중 스트림 아키텍처인 Efficient-LVSM을 제안합니다. Efficient-LVSM은 입력 뷰에 대해서는 내부 뷰 셀프 어텐션을, 대상 뷰에 대해서는 셀프-크로스 어텐션을 적용하여 불필요한 연산을 제거합니다. Efficient-LVSM은 2개의 입력 뷰를 사용하여 RealEstate10K 데이터셋에서 29.86 dB의 PSNR을 달성하여 LVSM보다 0.2 dB 더 높은 성능을 보이며, 2배 빠른 학습 수렴 속도와 4.4배 빠른 추론 속도를 제공합니다. Efficient-LVSM은 여러 벤치마크에서 최고 성능을 달성하며, 보이지 않는 뷰 개수에 대한 강력한 제로샷 일반화 성능을 보이며, 분리된 설계 덕분에 KV-캐시를 활용한 점진적인 추론이 가능합니다.
Feedforward models for novel view synthesis (NVS) have recently advanced by transformer-based methods like LVSM, using attention among all input and target views. In this work, we argue that its full self-attention design is suboptimal, suffering from quadratic complexity with respect to the number of input views and rigid parameter sharing among heterogeneous tokens. We propose Efficient-LVSM, a dual-stream architecture that avoids these issues with a decoupled co-refinement mechanism. It applies intra-view self-attention for input views and self-then-cross attention for target views, eliminating unnecessary computation. Efficient-LVSM achieves 29.86 dB PSNR on RealEstate10K with 2 input views, surpassing LVSM by 0.2 dB, with 2x faster training convergence and 4.4x faster inference speed. Efficient-LVSM achieves state-of-the-art performance on multiple benchmarks, exhibits strong zero-shot generalization to unseen view counts, and enables incremental inference with KV-cache, thanks to its decoupled designs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.