그라운딩 동반 사고: 긴 비디오 이해를 위해 비디오 그라운딩을 활용한 커리큘럼 강화 추론
Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding
긴 시간 범위에 존재하는 풍부하고 복잡한 멀티모달 단서들로 인해 긴 비디오 이해는 까다로운 과제이다. 기존 방법들은 텍스트 형태의 추론을 통해 긴 비디오 내의 복잡한 비디오 단서를 분석하는 모델의 능력을 향상시키고자 추론 기법을 도입한다. 하지만 기존 연구들은 긴 비디오의 시간적 중복성으로 인해 제한된 비디오 문맥 길이 하에서 세부적인 핵심 단서들이 종종 무시되기 때문에, 고정된 비디오 문맥 하에서의 텍스트 전용 추론이 환각(hallucination)을 악화시킬 수 있다는 문제점을 겪는다. 이러한 간극을 해결하기 위해, 우리는 비디오 LLM이 텍스트-비디오 교차 추론 과정에서 언제 온디맨드(on-demand) 그라운딩을 수행할지 능동적으로 결정하고 필요할 때만 질문과 관련된 클립에 선택적으로 집중(zooming into)할 수 있도록 하는 새로운 '그라운딩 동반 사고(Think-with-Grounding)' 패러다임을 도입한 커리큘럼 강화 프레임워크인 Video-TwG를 제안한다. Video-TwG는 복잡한 보조 모듈이나 과도하게 주석이 달린 추론 기록에 의존하지 않고 직관적인 방식으로 엔드투엔드(end-to-end) 학습이 가능하다. 구체적으로, 우리는 모델이 먼저 그라운딩 레이블이 있는 소규모 짧은 비디오 GQA 데이터셋에서 그라운딩 동반 사고 동작을 학습한 다음, 일반화를 촉진하기 위해 다양한 도메인의 비디오가 포함된 광범위한 일반 QA 데이터로 확장하는 '2단계 강화 커리큘럼 전략'을 설계했다. 나아가 다양한 데이터에 대한 복잡한 그라운딩 동반 사고 추론을 처리하기 위해, 세밀한 그라운딩 보상, 자체 확인 유사 보상(self-confirmed pseudo reward) 및 정확도 게이팅 메커니즘을 특징으로 하는 TwG-GRPO 알고리즘을 제안한다. 마지막으로, 우리는 학습을 촉진하는 새로운 TwG-51K 데이터셋 구축을 제안한다. Video-MME, LongVideoBench 및 MLVU에 대한 실험 결과, Video-TwG는 강력한 긴 비디오 이해(LVU) 베이스라인 모델들을 일관되게 능가하는 것으로 나타났다. 추가적인 절제 연구(ablation)는 우리의 2단계 강화 커리큘럼 전략의 필요성을 검증하며, 제안한 TwG-GRPO가 QA 성능의 희생 없이 그라운딩 품질을 향상시키고 불필요한 그라운딩을 줄이기 위해 다양한 레이블 없는 데이터를 더 효과적으로 활용함을 보여준다.
Long video understanding is challenging due to rich and complicated multimodal clues in long temporal range.Current methods adopt reasoning to improve the model's ability to analyze complex video clues in long videos via text-form reasoning.However,the existing literature suffers from the fact that the text-only reasoning under fixed video context may exacerbate hallucinations since detailed crucial clues are often ignored under limited video context length due to the temporal redundancy of long videos.To address this gap,we propose Video-TwG,a curriculum reinforced framework that employs a novel Think-with-Grounding paradigm,enabling video LLMs to actively decide when to perform on-demand grounding during interleaved text-video reasoning, selectively zooming into question-relevant clips only when necessary.Video-TwG can be trained end-to-end in a straightforward manner, without relying on complex auxiliary modules or heavily annotated reasoning tracesIn detail,we design a Two-stage Reinforced Curriculum Strategy, where the model first learns think-with-grounding behavior on a small short-video GQA dataset with grounding labels,and then scales to diverse general QA data with videos of diverse domains to encourage generalization. Further, to handle complex think-with-grounding reasoning for various kinds of data,we propose TwG-GRPO algorithm which features the fine-grained grounding reward, self-confirmed pseudo reward and accuracy-gated mechanism.Finally,we propose to construct a new TwG-51K dataset that facilitates training. Experiments on Video-MME, LongVideoBench, and MLVU show that Video-TwG consistently outperforms strong LVU baselines.Further ablation validates the necessity of our Two-stage Reinforced Curriculum Strategy and shows our TwG-GRPO better leverages diverse unlabeled data to improve grounding quality and reduce redundant groundings without sacrificing QA performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.