2601.14724v2 Jan 21, 2026 cs.CV

HERMES: KV 캐시를 활용한 계층적 메모리를 통한 효율적인 스트리밍 비디오 이해

HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

Haowei Zhang
Haowei Zhang
Citations: 8,985
h-index: 8
Xipeng Qiu
Xipeng Qiu
Citations: 4
h-index: 1
Jinlan Fu
Jinlan Fu
Citations: 127
h-index: 7
See-Kiong Ng
See-Kiong Ng
Citations: 68
h-index: 5
Shudong Yang
Shudong Yang
Citations: 20
h-index: 2

최근 멀티모달 대규모 언어 모델(MLLM)의 발전은 오프라인 비디오 이해 성능을 크게 향상시켰습니다. 그러나 이러한 기능을 스트리밍 비디오 입력에 적용하는 것은 여전히 어려운 과제이며, 기존 모델들은 안정적인 이해 성능, 실시간 응답, 낮은 GPU 메모리 오버헤드를 동시에 유지하는 데 어려움을 겪습니다. 이러한 문제점을 해결하기 위해, 우리는 실시간으로 정확한 스트리밍 비디오 이해를 위한 새로운 학습이 필요 없는 아키텍처인 HERMES를 제안합니다. 메커니즘 기반 어텐션 연구를 바탕으로, 우리는 KV 캐시를 다양한 수준의 비디오 정보를 담고 있는 계층적 메모리 프레임워크로 개념화했습니다. 추론 과정에서 HERMES는 작은 크기의 KV 캐시를 재사용하여, 제한된 리소스 환경에서도 효율적인 스트리밍 이해를 가능하게 합니다. 특히, HERMES는 사용자 쿼리가 들어올 때 추가적인 계산을 수행하지 않아, 지속적인 비디오 스트림 상호작용에 대한 실시간 응답을 보장하며, 기존 최고 성능 모델보다 10배 빠른 TTFT(Time To First Token)를 달성합니다. 또한, HERMES는 균일 샘플링과 비교하여 최대 68%까지 비디오 토큰 수를 줄였음에도 불구하고, 모든 벤치마크에서 우수한 또는 동등한 정확도를 달성했으며, 특히 스트리밍 데이터셋에서 최대 11.4%의 성능 향상을 보였습니다.

Original Abstract

Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated significant improvement in offline video understanding. However, extending these capabilities to streaming video inputs, remains challenging, as existing models struggle to simultaneously maintain stable understanding performance, real-time responses, and low GPU memory overhead. To address this challenge, we propose HERMES, a novel training-free architecture for real-time and accurate understanding of video streams. Based on a mechanistic attention investigation, we conceptualize KV cache as a hierarchical memory framework that encapsulates video information across multiple granularities. During inference, HERMES reuses a compact KV cache, enabling efficient streaming understanding under resource constraints. Notably, HERMES requires no auxiliary computations upon the arrival of user queries, thereby guaranteeing real-time responses for continuous video stream interactions, which achieves 10$\times$ faster TTFT compared to prior SOTA. Even when reducing video tokens by up to 68% compared with uniform sampling, HERMES achieves superior or comparable accuracy across all benchmarks, with up to 11.4% gains on streaming datasets.

1 Citations
0 Influential
4 Altmetric
21.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!