2602.01683v1 Feb 02, 2026 cs.CV

FreshMem: 뇌에서 영감을 받은 주파수-공간 하이브리드 메모리 - 스트리밍 비디오 이해를 위한

FreshMem: Brain-Inspired Frequency-Space Hybrid Memory for Streaming Video Understanding

Kangcong Li
Kangcong Li
Citations: 4
h-index: 1
Peng Ye
Peng Ye
Citations: 3
h-index: 1
Lin Zhang
Lin Zhang
Citations: 31
h-index: 4
Chao Wang
Chao Wang
Citations: 21
h-index: 2
Huafeng Qin
Huafeng Qin
Citations: 167
h-index: 8
Tao Chen
Tao Chen
Citations: 10
h-index: 2

다중 모달 대규모 언어 모델(MLLM)을 오프라인에서 온라인 스트리밍 비디오 이해로 전환하는 것은 지속적인 인지 능력 확보에 필수적입니다. 그러나 기존 방법은 유연한 적응성이 부족하여, 이는 되돌릴 수 없는 세부 정보 손실과 문맥 단편화를 초래합니다. 이러한 문제를 해결하기 위해, 뇌의 로그 기반 인지 및 메모리 통합 방식에서 영감을 받은 주파수-공간 하이브리드 메모리 네트워크인 FreshMem을 제안합니다. FreshMem은 두 가지 시너지 모듈을 통해 단기적인 정확성과 장기적인 일관성을 조화롭게 합니다. 첫 번째는 Multi-scale Frequency Memory (MFM)로, 과도한 프레임을 대표적인 주파수 계수로 투영하고, 잔여 세부 정보를 사용하여 전체적인 역사적

Original Abstract

Transitioning Multimodal Large Language Models (MLLMs) from offline to online streaming video understanding is essential for continuous perception. However, existing methods lack flexible adaptivity, leading to irreversible detail loss and context fragmentation. To resolve this, we propose FreshMem, a Frequency-Space Hybrid Memory network inspired by the brain's logarithmic perception and memory consolidation. FreshMem reconciles short-term fidelity with long-term coherence through two synergistic modules: Multi-scale Frequency Memory (MFM), which projects overflowing frames into representative frequency coefficients, complemented by residual details to reconstruct a global historical "gist"; and Space Thumbnail Memory (STM), which discretizes the continuous stream into episodic clusters by employing an adaptive compression strategy to distill them into high-density space thumbnails. Extensive experiments show that FreshMem significantly boosts the Qwen2-VL baseline, yielding gains of 5.20%, 4.52%, and 2.34% on StreamingBench, OV-Bench, and OVO-Bench, respectively. As a training-free solution, FreshMem outperforms several fully fine-tuned methods, offering a highly efficient paradigm for long-horizon streaming video understanding.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!