ArtiFixer: 오토-리гре시브 디퓨전 모델을 활용한 3D 재구성 성능 향상 및 확장
ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models
3D Gaussian Splatting과 같은 장면별 최적화 방법은 최첨단 신규 뷰 합성 품질을 제공하지만, 관찰되지 않은 영역으로의 일반화 성능이 좋지 않습니다. 생성적 사전 지식을 활용하여 이러한 영역의 왜곡을 수정하는 방법은 유망하지만, 현재 확장성과 품질 측면에서 두 가지 단점을 가지고 있습니다. 첫째, 기존 방법은 이미지 디퓨전 모델이나 양방향 비디오 모델을 사용하여 장면당 생성할 수 있는 뷰의 수가 제한되어 있어, 일관성을 유지하기 위한 비용이 많이 드는 반복적인 증류 과정이 필요합니다. 둘째, 기존 연구에서 사용된 생성 모델은 종종 기존 장면 콘텐츠와 일치하지 않는 출력을 생성하거나, 완전히 관찰되지 않은 영역에서는 완전히 실패하는 경우가 있습니다. 이러한 문제를 해결하기 위해, 우리는 두 가지 핵심 아이디어를 활용하는 2단계 파이프라인을 제안합니다. 첫째, 기존 관찰과의 일관성을 유지하면서도 새로운 콘텐츠를 생성하는 능력을 유지하는 새로운 투명도 혼합 전략을 사용하여 강력한 양방향 생성 모델을 학습합니다. 둘째, 이 모델을 인과적 오토-리гре시브 모델로 증류하여 단일 패스에서 수백 프레임을 생성합니다. 이 모델은 새로운 뷰를 직접 생성하거나, 간단하고 효율적인 방식으로 기본 3D 표현을 개선하기 위한 준지도 학습으로 사용할 수 있습니다. 우리는 제안하는 방법을 광범위하게 평가하고, 기존 방법이 완전히 실패하는 시나리오에서도 타당한 재구성을 생성할 수 있음을 보여줍니다. 일반적으로 사용되는 벤치마크 데이터 세트에서 측정했을 때, 제안하는 방법은 기존 방법보다 훨씬 뛰어난 성능을 보이며, 이전 최고 성능 모델보다 1-3 dB PSNR으로 성능이 향상되었습니다.
Per-scene optimization methods such as 3D Gaussian Splatting provide state-of-the-art novel view synthesis quality but extrapolate poorly to under-observed areas. Methods that leverage generative priors to correct artifacts in these areas hold promise but currently suffer from two shortcomings. The first is scalability, as existing methods use image diffusion models or bidirectional video models that are limited in the number of views they can generate in a single pass (and thus require a costly iterative distillation process for consistency). The second is quality itself, as generators used in prior work tend to produce outputs that are inconsistent with existing scene content and fail entirely in completely unobserved regions. To solve these, we propose a two-stage pipeline that leverages two key insights. First, we train a powerful bidirectional generative model with a novel opacity mixing strategy that encourages consistency with existing observations while retaining the model's ability to extrapolate novel content in unseen areas. Second, we distill it into a causal auto-regressive model that generates hundreds of frames in a single pass. This model can directly produce novel views or serve as pseudo-supervision to improve the underlying 3D representation in a simple and highly efficient manner. We evaluate our method extensively and demonstrate that it can generate plausible reconstructions in scenarios where existing approaches fail completely. When measured on commonly benchmarked datasets, we outperform existing all existing baselines by a wide margin, exceeding prior state-of-the-art methods by 1-3 dB PSNR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.