차등 피드백: VLM 강화 학습을 위한 다중 모드 프로세스 레벨의 감독 신호 생성
Difference Feedback: Generating Multimodal Process-Level Supervision for VLM Reinforcement Learning
비전-언어 모델(VLM)은 그룹 상대 정책 최적화(GRPO) 스타일의 훈련을 통해 점점 더 정교해지고 있습니다. 그러나 최종 결과 보상에만 의존하면 다단계 추론 과정에서 희소한 보상 할당이 발생하며, 이는 시각적 증거와 중간 단계 간의 연관성을 약화시키고 종종 불안정한 최적화 및 시각적 환각을 초래합니다. 본 논문에서는 차등 피드백(Differential Feedback)이라는 방법을 제안합니다. 이 방법은 오류가 있는 추론 경로를 수정하여 토큰/단계 레벨의 감독 신호 마스크를 자동으로 생성하며, 수정이 필요한 핵심 위치를 명시적으로 표시합니다. 비용이 많이 드는 대규모의 단계별 인간 어노테이션 없이도, 저희의 방법은 프로세스 레벨의 시각적 정렬을 가능하게 하며 기존의 GRPO와 유사한 프레임워크에 원활하게 통합될 수 있습니다. MMMStar 및 MathVista를 포함한 다중 모드 추론 벤치마크에서의 실험 결과, 동일한 계산 자원을 사용할 때 평균 3%의 성능 향상을 보였습니다. 저희의 접근 방식은 정확한 비전-추론 프로세스 정렬을 위한 효과적이고 저렴한 솔루션을 제공합니다.
Vision--language models (VLMs) are increasingly aligned via Group Relative Policy Optimization (GRPO)-style training. However, relying solely on terminal outcome rewards yields sparse credit assignment in multi-step reasoning, weakening the linkage between visual evidence and intermediate steps and often causing unstable optimization and visual hallucinations. We propose Differential Feedback, which automatically constructs token/step-level supervision masks by repairing erroneous reasoning trajectories, explicitly marking the key positions that require correction. Without costly large-scale step-by-step human annotations, our method enables process-level visual alignment and can be seamlessly integrated into existing GRPO-like frameworks. Experiments on multimodal reasoning benchmarks including MMMStar and MathVista show an average 3% improvement under matched compute budgets. Our approach offers an effective, low-cost solution for accurate vision--reasoning process alignment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.