2603.19054v1 Mar 19, 2026 cs.CV

Em-Garde: 능동적인 스트리밍 비디오 이해를 위한 제안-매칭 프레임워크

Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding

Xin Ding
Xin Ding
Citations: 21
h-index: 2
Weijun Wang
Weijun Wang
Citations: 3,615
h-index: 7
Yikai Zheng
Yikai Zheng
Citations: 2
h-index: 1
Qianxi Zhang
Qianxi Zhang
Citations: 38
h-index: 4
Ting Cao
Ting Cao
Citations: 35
h-index: 3
Yunxin Liu
Yunxin Liu
Citations: 10
h-index: 2
Yifan Yang
Yifan Yang
Citations: 37
h-index: 3
Hao Wu
Hao Wu
Citations: 21
h-index: 2
Shiqi Jiang
Shiqi Jiang
Citations: 668
h-index: 10

최근 스트리밍 비디오 이해 기술의 발전은 모델이 사용자 쿼리에 능동적으로 응답하는 새로운 상호작용 패러다임을 가능하게 했습니다. 현재의 능동적인 비디오 LLM은 프레임 단위의 트리거 결정 방식을 사용하는데, 이는 효율성과 정확성 사이의 딜레마를 야기합니다. 본 논문에서는 의미 이해와 스트리밍 인지 간의 분리를 통해 효율성을 높인 새로운 프레임워크인 Em-Garde를 제안합니다. 쿼리 시, Instruction-Guided Proposal Parser는 사용자 쿼리를 구조화된, 시각적으로 기반한 제안으로 변환합니다. 스트리밍 과정에서, Lightweight Proposal Matching Module은 효율적인 임베딩 기반 매칭을 수행하여 응답을 트리거합니다. StreamingBench 및 OVO-Bench에 대한 실험 결과는 Em-Garde가 기존 모델보다 능동적인 응답 정확성과 효율성 측면에서 일관된 성능 향상을 보여주며, 엄격한 계산 제약 조건 하에서 능동적인 비디오 이해를 위한 효과적인 솔루션임을 입증합니다.

Original Abstract

Recent advances in Streaming Video Understanding has enabled a new interaction paradigm where models respond proactively to user queries. Current proactive VideoLLMs rely on per-frame triggering decision making, which suffers from an efficiency-accuracy dilemma. We propose Em-Garde, a novel framework that decouples semantic understanding from streaming perception. At query time, the Instruction-Guided Proposal Parser transforms user queries into structured, perceptually grounded visual proposals; during streaming, a Lightweight Proposal Matching Module performs efficient embedding-based matching to trigger responses. Experiments on StreamingBench and OVO-Bench demonstrate consistent improvements over prior models in proactive response accuracy and efficiency, validating an effective solution for proactive video understanding under strict computational constraints.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!