Response-G1: 능동적인 스트리밍 비디오 이해를 위한 명시적인 장면 그래프 모델링
Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding
능동적인 스트리밍 비디오 이해는 비디오가 전개됨에 따라 Video-LLM이 언제 응답해야 하는지를 결정하는 것을 요구하며, 이는 기존 방법들이 시각적 증거를 암묵적이고 쿼리-무관하게 모델링하기 때문에 종종 어려움을 겪습니다. 본 논문에서는 장면 그래프를 통해 축적된 비디오 증거와 쿼리의 예상 응답 조건 간의 명시적이고 구조화된 정렬을 구축하는 새로운 프레임워크인 Response-G1을 소개합니다. 이 프레임워크는 세 단계로 구성되며, 세 단계 모두 추가적인 파인튜닝이 필요하지 않습니다. (1) 스트리밍 클립에서 온라인 쿼리 기반 장면 그래프 생성; (2) 의미적으로 가장 관련성이 높은 과거 장면 그래프를 메모리 기반으로 검색; (3) 검색 증강 트리거 프롬프팅을 통해 프레임별 "침묵/응답" 결정을 내립니다. Response-G1은 증거와 조건을 공유된 그래프 표현으로 연결함으로써 더욱 해석 가능하고 정확한 응답 타이밍 결정을 가능하게 합니다. 확립된 벤치마크에서의 실험 결과는 제안하는 방법이 능동적 및 반응적 작업 모두에서 우수한 성능을 보임을 보여주며, 이는 명시적인 장면 그래프 모델링 및 검색이 스트리밍 비디오 이해에 중요한 이점을 제공한다는 것을 검증합니다.
Proactive streaming video understanding requires Video-LLMs to decide when to respond as a video unfolds, a task where existing methods often fall short due to their implicit, query-agnostic modeling of visual evidence. We introduce Response-G1, a novel framework that establishes explicit, structured alignment between the accumulated video evidence and the query's expected response conditions via scene graphs. The framework operates in three fine-tuning-free stages: (1) online query-guided scene graph generation from streaming clips; (2) memory-based retrieval of the most semantically relevant historical scene graphs; and (3) retrieval-augmented trigger prompting for per-frame "silence/response" decisions.By grounding both evidence and conditions in a shared graph representation, Response-G1 achieves more interpretable and accurate response timing decisions. Experimental results on established benchmarks demonstrate the superiority of our method in both proactive and reactive tasks, validating the advantage of explicit scene graph modeling and retrieval in streaming video understanding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.