2602.05847v1 Feb 05, 2026 cs.AI

OmniVideo-R1: 쿼리 의도와 모달리티 어텐션을 통한 시청각 추론 강화

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Yihao Hu
Yihao Hu
Citations: 1
h-index: 1
Zhangquan Chen
Zhangquan Chen
Citations: 91
h-index: 6
Ruihuang Li
Ruihuang Li
Citations: 29
h-index: 3
Zhantao Yang
Zhantao Yang
Citations: 94
h-index: 3
Xinlei Yu
Xinlei Yu
Citations: 132
h-index: 6
Jiale Tao
Jiale Tao
Citations: 75
h-index: 3
Haodong Jing
Haodong Jing
Citations: 84
h-index: 5
Manyuan Zhang
Manyuan Zhang
Citations: 11
h-index: 2
Shuai Shao
Shuai Shao
Citations: 4
h-index: 1
Biao Wang
Biao Wang
Citations: 227
h-index: 8
Qinglin Lu
Qinglin Lu
Citations: 9
h-index: 1
Ruitao Chen
Ruitao Chen
Citations: 3
h-index: 1
Ruqi Huang
Ruqi Huang
Citations: 106
h-index: 6

인간은 주변 환경을 전체적으로 이해하기 위해 상호보완적으로 작용하는 다양한 모달리티를 통해 세상을 인지하지만, 기존의 옴니비디오 모델들은 시청각 이해 작업에서 여전히 상당한 어려움을 겪고 있다. 본 논문에서는 혼합 모달리티 추론을 향상시키는 새로운 강화 프레임워크인 OmniVideo-R1을 제안한다. OmniVideo-R1은 다음 두 가지 핵심 전략을 통해 모델이 "옴니모달 단서를 활용해 사고"할 수 있도록 한다. (1) 자기지도 학습 패러다임에 기반한 쿼리 집약적 그라운딩, (2) 대조 학습 패러다임에 기반한 모달리티 어텐션 융합이다. 다수의 벤치마크에서 수행된 광범위한 실험 결과, OmniVideo-R1은 강력한 베이스라인 모델들을 일관되게 능가하였으며, 이를 통해 모델의 효과성과 견고한 일반화 능력을 입증하였다.

Original Abstract

While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.

1 Citations
0 Influential
4 Altmetric
21.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!