2601.16914v1 Jan 23, 2026 cs.CV

LoL: 더 길어지는 영상 생성, 시간 제약을 넘어선 기술

LoL: Longer than Longer, Scaling Video Generation to Hour

A. Bai
A. Bai
Citations: 3
h-index: 1
Justin Cui
Justin Cui
Citations: 482
h-index: 6
Jie Wu
Jie Wu
Citations: 74
h-index: 3
Ming Li
Ming Li
Citations: 92
h-index: 4
Tao Yang
Tao Yang
Citations: 183
h-index: 3
Xiaojie Li
Xiaojie Li
Citations: 266
h-index: 4
Rui Wang
Rui Wang
Citations: 79
h-index: 3
Yuanhao Ban
Yuanhao Ban
Citations: 134
h-index: 4
Cho-jui Hsieh
Cho-jui Hsieh
Citations: 157
h-index: 5

최근의 장편 영상 생성 연구는 양방향 모델에서 자기 회귀 모델로 전환되었지만, 이러한 방법들은 흔히 오류 누적과 장기적인 일관성 저하의 문제를 안고 있습니다. '어텐션 싱크 프레임'이 이러한 성능 저하를 완화하기 위해 도입되었지만, 종종 '싱크 콜랩스'라는 심각한 문제를 야기합니다. 싱크 콜랩스는 생성된 콘텐츠가 반복적으로 싱크 프레임으로 돌아가는 현상으로, 갑작스러운 장면 전환과 순환적인 움직임 패턴을 초래합니다. 우리의 분석에 따르면, 싱크 콜랩스는 현재 생성 모델에 널리 사용되는 로터리 포지션 임베딩(RoPE)의 주기적인 구조와 멀티 헤드 어텐션 메커니즘 간의 근본적인 충돌에서 비롯됩니다. 이러한 문제를 해결하기 위해, 저희는 학습 과정이 필요 없는 경량화된 방법을 제안합니다. 이 방법은 멀티 헤드 RoPE 지터를 도입하여 헤드 간의 균일성을 깨뜨리고, 장기적인 불안정성을 완화합니다. 광범위한 실험 결과, 저희 방법은 싱크 콜랩스를 효과적으로 완화하면서도 생성 품질을 유지하는 것으로 나타났습니다. 저희가 알고 있는 한, 이 연구는 실시간, 스트리밍, 그리고 품질 저하가 거의 없는 무한 길이의 영상 생성이라는 최초의 사례를 보여줍니다. 이 견고성을 보여주기 위해, 저희는 최대 12시간 분량의 연속적인 영상을 생성했으며, 이는 공개적으로 시연된 스트리밍 영상 생성 결과 중 가장 긴 것 중 하나입니다.

Original Abstract

Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.

3 Citations
0 Influential
3 Altmetric
18.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!