2603.02096v1 Mar 02, 2026 cs.CV

FluxMem: 스트리밍 비디오 이해를 위한 적응형 계층적 메모리

FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding

Bo He
Bo He
Citations: 194
h-index: 3
Ziyi Ye
Ziyi Ye
Citations: 47
h-index: 3
Yi Xie
Yi Xie
Citations: 17
h-index: 2
Junke Wang
Junke Wang
Fudan University
Citations: 1,783
h-index: 15
Xiangyu Zheng
Xiangyu Zheng
Citations: 14
h-index: 1
Zuxuan Wu
Zuxuan Wu
Citations: 11
h-index: 2

본 논문에서는 효율적인 스트리밍 비디오 이해를 위한 학습이 필요 없는 프레임워크인 FluxMem을 제시합니다. FluxMem은 계층적이고 두 단계로 구성된 디자인을 통해 불필요한 시각적 메모리를 적응적으로 압축합니다. (1) Temporal Adjacency Selection (TAS) 모듈은 인접 프레임 간의 중복된 시각적 토큰을 제거하고, (2) Spatial Domain Consolidation (SDC) 모듈은 각 프레임 내의 공간적으로 반복되는 영역을 더욱 융합하여 압축된 표현으로 만듭니다. 동적인 장면에도 효과적으로 적응하기 위해, TAS 및 SDC 모듈 모두에 자체적으로 적응하는 토큰 압축 메커니즘을 도입했습니다. 이 메커니즘은 수동 튜닝 대신, 장면의 고유한 통계에 따라 압축률을 자동으로 결정합니다. 광범위한 실험 결과, FluxMem은 기존의 온라인 비디오 벤치마크에서 새로운 최고 성능을 달성했으며, StreamingBench에서 76.4, OVO-Bench에서 67.2의 성능을 보였습니다. 또한, OVO-Bench에서 지연 시간을 69.9% 줄이고, GPU 메모리 사용량을 34.5% 감소시켰습니다. 더욱이, FluxMem은 오프라인 성능도 우수하여 MLVU에서 73.1의 성능을 보였으며, 시각적 토큰 사용량을 65% 줄였습니다.

Original Abstract

This paper presents FluxMem, a training-free framework for efficient streaming video understanding. FluxMem adaptively compresses redundant visual memory through a hierarchical, two-stage design: (1) a Temporal Adjacency Selection (TAS) module removes redundant visual tokens across adjacent frames, and (2) a Spatial Domain Consolidation (SDC) module further merges spatially repetitive regions within each frame into compact representations. To adapt effectively to dynamic scenes, we introduce a self-adaptive token compression mechanism in both TAS and SDC, which automatically determines the compression rate based on intrinsic scene statistics rather than manual tuning. Extensive experiments demonstrate that FluxMem achieves new state-of-the-art results on existing online video benchmarks, reaching 76.4 on StreamingBench and 67.2 on OVO-Bench under real-time settings, while reducing latency by 69.9% and peak GPU memory by 34.5% on OVO-Bench. Furthermore, it maintains strong offline performance, achieving 73.1 on MLVU while using 65% fewer visual tokens.

1 Citations
0 Influential
7.5 Altmetric
38.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!