2603.18558v1 Mar 19, 2026 cs.CV

HiMu: 계층적 다중 모드 프레임 선택을 통한 장편 비디오 질의 응답

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Chaim Baskin
Chaim Baskin
Ben-Gurion University of the Negev
Citations: 1,129
h-index: 14
D. Ben-Ami
D. Ben-Ami
Citations: 2
h-index: 1
Gabriele Serussi
Gabriele Serussi
Citations: 4
h-index: 1
Kobi Cohen
Kobi Cohen
Citations: 3
h-index: 1

장편 비디오 질의 응답은 광범위한 시간적 맥락에 대한 추론을 필요로 하며, 이는 유한한 컨텍스트 창으로 제한된 대규모 시각-언어 모델(LVLM)에게 있어 프레임 선택이 매우 중요한 역할을 합니다. 기존 방법들은 명확한 트레이드오프를 가지고 있습니다. 유사성 기반 선택기는 빠르지만, 복합적인 질의를 단일한 밀집 벡터로 압축하여 하위 이벤트 순서 및 다중 모드 연관성을 잃게 됩니다. 에이전트 기반 방법은 반복적인 LVLM 추론을 통해 이러한 구조를 복구하지만, 비용이 매우 높습니다. 본 논문에서는 이러한 격차를 해소하는 학습이 필요 없는 프레임워크인 HiMu를 소개합니다. 단일 텍스트 기반 LLM 호출을 통해 질의를 계층적 논리 트리로 분해하며, 트리의 리프 노드는 원자적 술어이며, 각 술어는 시각(CLIP, 개방형 어휘 기반 객체 탐지, OCR) 및 오디오(ASR, CLAP)를 포괄하는 경량화된 전문가로 라우팅됩니다. 결과 신호는 정규화되고, 시간적으로 평활화되어 다양한 모달리티를 정렬하며, 퍼지 논리 연산자를 통해 시간 순서 및 인접성을 강제하여 연속적인 만족도 곡선을 생성합니다. Video-MME, LongVideoBench 및 HERBench-Lite에 대한 평가 결과, HiMu는 효율성과 정확성 사이의 균형을 개선합니다. Qwen3-VL 8B 모델을 사용하여 16개의 프레임을 선택했을 때, HiMu는 모든 경쟁적인 선택기보다 우수한 성능을 보입니다. 또한 GPT-4o 모델을 사용하여 32-512개의 프레임을 사용하는 에이전트 기반 시스템보다 뛰어난 성능을 보이며, FLOPs 사용량은 약 10배 적습니다.

Original Abstract

Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.

1 Citations
0 Influential
7 Altmetric
36.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!