OmniVideo-R1: 쿼리 의도와 모달리티 어텐션을 통한 시청각 추론 강화
OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
인간은 주변 환경을 전체적으로 이해하기 위해 상호보완적으로 작용하는 다양한 모달리티를 통해 세상을 인지하지만, 기존의 옴니비디오 모델들은 시청각 이해 작업에서 여전히 상당한 어려움을 겪고 있다. 본 논문에서는 혼합 모달리티 추론을 향상시키는 새로운 강화 프레임워크인 OmniVideo-R1을 제안한다. OmniVideo-R1은 다음 두 가지 핵심 전략을 통해 모델이 "옴니모달 단서를 활용해 사고"할 수 있도록 한다. (1) 자기지도 학습 패러다임에 기반한 쿼리 집약적 그라운딩, (2) 대조 학습 패러다임에 기반한 모달리티 어텐션 융합이다. 다수의 벤치마크에서 수행된 광범위한 실험 결과, OmniVideo-R1은 강력한 베이스라인 모델들을 일관되게 능가하였으며, 이를 통해 모델의 효과성과 견고한 일반화 능력을 입증하였다.
While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.