EverAnimate: 잠재 흐름 복원을 통한 분 단위 인간 애니메이션 생성
EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration
본 논문에서는 시각적 품질과 캐릭터의 개성을 유지하면서 장시간 애니메이션 비디오 생성을 위한 효율적인 후처리 방법인 EverAnimate를 제안합니다. 장편 애니메이션은 역동적인 인간 움직임을 상대적으로 정적인 환경에 맞춰 합성해야 하므로, 부분 기반 생성이 누적되는 드리프트를 유발하는 문제가 있습니다. 이러한 드리프트는 (i) 정적인 배경의 점진적인 품질 저하와 같은 저수준 드리프트, 그리고 (ii) 일관성 없는 캐릭터 개성과 시점 의존적 속성과 같은 고수준 의미 드리프트로 나타납니다. 이러한 문제를 해결하기 위해 EverAnimate는 두 가지 상호 보완적인 메커니즘으로 구성된 지속적인 잠재 컨텍스트 메모리에 생성을 고정하여 드리프트된 흐름 궤적을 복원합니다. (i) 지속적인 잠재 전파는 컨텍스트 메모리를 유지하여 잠재 공간에서 개성과 움직임을 전파하고 시간적 망각을 완화합니다. (ii) 복원 흐름 매칭은 속도 조정을 통해 샘플링 과정에서 암시적인 복원 목표를 도입하여 부분 내의 충실도를 향상시킵니다. EverAnimate는 경량의 LoRA 튜닝만으로도 단기 및 장기 환경 모두에서 최첨단 장편 애니메이션 방법보다 뛰어난 성능을 보입니다. 10초 영상에서는 PSNR/SSIM이 각각 8%/7% 향상되고 LPIPS/FID가 각각 22%/11% 감소하며, 90초 영상에서는 이러한 개선 효과가 각각 15%/15% 및 32%/27%로 증가합니다.
We propose EverAnimate, an efficient post-training method for long-horizon animated video generation that preserves visual quality and character identity. Long-form animation remains challenging because highly dynamic human motion must be synthesized against relatively static environments, making chunk-based generation prone to accumulated drift: (i) low-level quality drift, such as progressive degradation of static backgrounds, and (ii) high-level semantic drift, such as inconsistent character identity and view-dependent attributes. To address this issue, EverAnimate restores drifted flow trajectories by anchoring generation to a persistent latent context memory, consisting of two complementary mechanisms. (i) Persistent Latent Propagation maintains a context memory across chunks to propagate identity and motion in latent space while mitigating temporal forgetting. (ii) Restorative Flow Matching introduces an implicit restoration objective during sampling through velocity adjustment, improving within-chunk fidelity. With only lightweight LoRA tuning, EverAnimate outperforms state-of-the-art long-animation methods in both short- and long-horizon settings: at 10 seconds, it improves PSNR/SSIM by 8%/7% and reduces LPIPS/FID by 22%/11%; at 90 seconds, the gains increase to 15%/15% and 32%/27%, respectively.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.