HiMu: 계층적 다중 모드 프레임 선택을 통한 장편 비디오 질의 응답
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering
장편 비디오 질의 응답은 광범위한 시간적 맥락에 대한 추론을 필요로 하며, 이는 유한한 컨텍스트 창으로 제한된 대규모 시각-언어 모델(LVLM)에게 있어 프레임 선택이 매우 중요한 역할을 합니다. 기존 방법들은 명확한 트레이드오프를 가지고 있습니다. 유사성 기반 선택기는 빠르지만, 복합적인 질의를 단일한 밀집 벡터로 압축하여 하위 이벤트 순서 및 다중 모드 연관성을 잃게 됩니다. 에이전트 기반 방법은 반복적인 LVLM 추론을 통해 이러한 구조를 복구하지만, 비용이 매우 높습니다. 본 논문에서는 이러한 격차를 해소하는 학습이 필요 없는 프레임워크인 HiMu를 소개합니다. 단일 텍스트 기반 LLM 호출을 통해 질의를 계층적 논리 트리로 분해하며, 트리의 리프 노드는 원자적 술어이며, 각 술어는 시각(CLIP, 개방형 어휘 기반 객체 탐지, OCR) 및 오디오(ASR, CLAP)를 포괄하는 경량화된 전문가로 라우팅됩니다. 결과 신호는 정규화되고, 시간적으로 평활화되어 다양한 모달리티를 정렬하며, 퍼지 논리 연산자를 통해 시간 순서 및 인접성을 강제하여 연속적인 만족도 곡선을 생성합니다. Video-MME, LongVideoBench 및 HERBench-Lite에 대한 평가 결과, HiMu는 효율성과 정확성 사이의 균형을 개선합니다. Qwen3-VL 8B 모델을 사용하여 16개의 프레임을 선택했을 때, HiMu는 모든 경쟁적인 선택기보다 우수한 성능을 보입니다. 또한 GPT-4o 모델을 사용하여 32-512개의 프레임을 사용하는 에이전트 기반 시스템보다 뛰어난 성능을 보이며, FLOPs 사용량은 약 10배 적습니다.
Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.