VisionCoach: 시각적-인지적 프롬프팅을 통한 상황 인식 비디오 추론 강화
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
비디오 추론은 모델이 프레임 전체에서 질문과 관련된 증거를 찾고 추적하도록 요구합니다. 강화 학습(RL)은 검증 가능한 보상을 통해 정확도를 향상시키지만, 추론 과정에서 안정적인 시공간적 위치 정보를 확보하는 데 여전히 어려움을 겪습니다. 또한, 위치 정보 정확도를 높이는 방법은 일반적으로 대규모 훈련 데이터 또는 추론 시에 사용되는 인지 도구를 필요로 하며, 이는 어노테이션 비용 또는 계산 비용을 증가시킵니다. 이러한 문제를 해결하기 위해, 본 연구에서는 훈련 시간 동안 시각적 프롬프트를 활용하여 시공간적 위치 정보를 개선하는 입력 적응형 RL 프레임워크인 VisonCoach를 제안합니다. RL 훈련 과정에서, 시각적 프롬프트는 질문과 관련된 증거를 강조하고 불필요한 정보를 억제하기 위해 어려운 입력에 선택적으로 적용됩니다. 모델은 이러한 개선 사항을 자체 증류(self-distillation)를 통해 내재화하여, 추론 시에 시각적 프롬프트 없이 원본 비디오에 대한 직접적인 시공간적 추론을 가능하게 합니다. VisonCoach는 다음 두 가지 구성 요소로 구성됩니다. (1) 시각적 프롬프트 선택기: 비디오와 질문에 따라 적절한 프롬프트 유형을 예측합니다. (2) 시공간적 추론기: 시각적 프롬프트 지침 및 객체 인식 기반 보상을 통해 최적화되며, 객체 동일성 일관성과 다중 영역 경계 상자 겹침을 강화합니다. 광범위한 실험 결과, VisonCoach는 다양한 비디오 추론, 비디오 이해 및 시계열 위치 정보 벤치마크(V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, Charades-STA)에서 최고 성능을 달성하며, 외부 도구 없이 단일하고 효율적인 추론 경로를 유지합니다. 본 연구 결과는 훈련 과정에서 시각적 프롬프팅이 상황 인식 비디오 추론을 개선하며, 자체 증류를 통해 모델이 이러한 능력을 내재화하여 추론 시에 프롬프트가 필요 없도록 할 수 있음을 보여줍니다.
Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled training data or inference-time perception tools, which increases annotation cost or computational cost. To address this challenge, we propose VisonCoach, an input-adaptive RL framework that improves spatio-temporal grounding through visual prompting as training-time guidance. During RL training, visual prompts are selectively applied to challenging inputs to amplify question-relevant evidence and suppress distractors. The model then internalizes these improvements through self-distillation, enabling grounded reasoning directly on raw videos without visual prompting at inference. VisonCoach consists of two components: (1) Visual Prompt Selector, which predicts appropriate prompt types conditioned on the video and question, and (2) Spatio-Temporal Reasoner, optimized with RL under visual prompt guidance and object-aware grounding rewards that enforce object identity consistency and multi-region bounding-box overlap. Extensive experiments demonstrate that VisonCoach achieves state-of-the-art performance under comparable settings, across diverse video reasoning, video understanding, and temporal grounding benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, and Charades-STA), while maintaining a single efficient inference pathway without external tools. Our results show that visual prompting during training improves grounded video reasoning, while self-distillation enables the model to internalize this ability without requiring prompts at inference time.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.