Event-VStream: 이벤트 기반 실시간 이해를 위한 장시간 비디오 스트림 처리
Event-VStream: Event-Driven Real-Time Understanding for Long Video Streams
다중 모달 대규모 언어 모델(VLMs)은 중복 프레임 처리 및 과거 맥락의 빠른 소실로 인해 장시간 비디오 스트림에 대한 실시간 이해가 여전히 어려운 과제입니다. 기존 스트리밍 시스템은 고정 간격 디코딩 또는 캐시 가지치기를 사용하며, 이는 반복적인 출력을 생성하거나 중요한 시간 정보를 삭제하는 단점이 있습니다. 본 논문에서는 연속적인 비디오를 이산적이고 의미적으로 일관된 이벤트 시퀀스로 표현하는 이벤트 기반 프레임워크인 Event-VStream을 소개합니다. 저희 시스템은 움직임, 의미론적 정보 및 예측 단서를 통합하여 의미 있는 상태 전환을 감지하고, 이러한 경계에서만 언어 생성을 트리거합니다. 각 이벤트 임베딩은 지속적인 메모리 뱅크에 저장되어 장기적인 추론을 가능하게 하면서도 낮은 지연 시간을 유지합니다. OVOBench-Realtime 및 장편 Ego4D 평가에서 Event-VStream은 경쟁력 있는 성능을 달성했습니다. Event-VStream은 OVOBench-Realtime에서 VideoLLM-Online-8B 기준 모델보다 +10.4점이 향상되었으며, 일반적인 LLaMA-3-8B 텍스트 백본을 사용함에도 불구하고 Flash-VStream-7B와 유사한 성능을 보였으며, 2시간 길이의 Ego4D 스트림에서 약 70%의 GPT-5 우승률을 기록했습니다.
Real-time understanding of long video streams remains challenging for multimodal large language models (VLMs) due to redundant frame processing and rapid forgetting of past context. Existing streaming systems rely on fixed-interval decoding or cache pruning, which either produce repetitive outputs or discard crucial temporal information. We introduce Event-VStream, an event-aware framework that represents continuous video as a sequence of discrete, semantically coherent events. Our system detects meaningful state transitions by integrating motion, semantic, and predictive cues, and triggers language generation only at those boundaries. Each event embedding is consolidated into a persistent memory bank, enabling long-horizon reasoning while maintaining low latency. Across OVOBench-Realtime, and long-form Ego4D evaluations, Event-VStream achieves competitive performance. It improves over a VideoLLM-Online-8B baseline by +10.4 points on OVOBench-Realtime, achieves performance close to Flash-VStream-7B despite using only a general-purpose LLaMA-3-8B text backbone, and maintains around 70% GPT-5 win rate on 2-hour Ego4D streams.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.