2603.27482v1 Mar 29, 2026 cs.CV

차등 피드백: VLM 강화 학습을 위한 다중 모드 프로세스 레벨의 감독 신호 생성

Difference Feedback: Generating Multimodal Process-Level Supervision for VLM Reinforcement Learning

Yafei Liu
Yafei Liu
Citations: 99
h-index: 3
Yongkang Zhang
Yongkang Zhang
Citations: 0
h-index: 0
Chunzheng Zhu
Chunzheng Zhu
Citations: 17
h-index: 2
Feiding
Feiding
Citations: 0
h-index: 0
Yu-Chien Liao
Yu-Chien Liao
Citations: 51
h-index: 1
Zijian Zeng
Zijian Zeng
Citations: 10
h-index: 2
Yaozong Zheng
Yaozong Zheng
Citations: 655
h-index: 10
Ye Peng
Ye Peng
Citations: 0
h-index: 0
Youwei Wang
Youwei Wang
Citations: 9
h-index: 1
Sibo Wang
Sibo Wang
Citations: 41
h-index: 1
Huiming Yang
Huiming Yang
Citations: 0
h-index: 0
Linglin Liao
Linglin Liao
Citations: 0
h-index: 0
Shunzhi Yang
Shunzhi Yang
Citations: 122
h-index: 4

비전-언어 모델(VLM)은 그룹 상대 정책 최적화(GRPO) 스타일의 훈련을 통해 점점 더 정교해지고 있습니다. 그러나 최종 결과 보상에만 의존하면 다단계 추론 과정에서 희소한 보상 할당이 발생하며, 이는 시각적 증거와 중간 단계 간의 연관성을 약화시키고 종종 불안정한 최적화 및 시각적 환각을 초래합니다. 본 논문에서는 차등 피드백(Differential Feedback)이라는 방법을 제안합니다. 이 방법은 오류가 있는 추론 경로를 수정하여 토큰/단계 레벨의 감독 신호 마스크를 자동으로 생성하며, 수정이 필요한 핵심 위치를 명시적으로 표시합니다. 비용이 많이 드는 대규모의 단계별 인간 어노테이션 없이도, 저희의 방법은 프로세스 레벨의 시각적 정렬을 가능하게 하며 기존의 GRPO와 유사한 프레임워크에 원활하게 통합될 수 있습니다. MMMStar 및 MathVista를 포함한 다중 모드 추론 벤치마크에서의 실험 결과, 동일한 계산 자원을 사용할 때 평균 3%의 성능 향상을 보였습니다. 저희의 접근 방식은 정확한 비전-추론 프로세스 정렬을 위한 효과적이고 저렴한 솔루션을 제공합니다.

Original Abstract

Vision--language models (VLMs) are increasingly aligned via Group Relative Policy Optimization (GRPO)-style training. However, relying solely on terminal outcome rewards yields sparse credit assignment in multi-step reasoning, weakening the linkage between visual evidence and intermediate steps and often causing unstable optimization and visual hallucinations. We propose Differential Feedback, which automatically constructs token/step-level supervision masks by repairing erroneous reasoning trajectories, explicitly marking the key positions that require correction. Without costly large-scale step-by-step human annotations, our method enables process-level visual alignment and can be seamlessly integrated into existing GRPO-like frameworks. Experiments on multimodal reasoning benchmarks including MMMStar and MathVista show an average 3% improvement under matched compute budgets. Our approach offers an effective, low-cost solution for accurate vision--reasoning process alignment.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!