2601.06801v1 Jan 11, 2026 cs.AI

델타를 이용한 사고: 차분 시각 추론 정책을 통한 강화 학습 유도

Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy

Shujian Gao

Citations: 11

h-index: 2

Yuan Wang

Citations: 1

h-index: 1

Zuxuan Wu

Citations: 11,846

h-index: 58

Yu-Gang Jiang

Citations: 6,452

h-index: 43

Jiangtao Yan

Citations: 36

h-index: 2

검증 가능한 보상을 이용한 강화 학습(RLVR)은 거대 언어 모델의 추론 능력을 크게 향상시켰습니다. 그러나 RLVR을 멀티모달 도메인에 적용할 경우 치명적인 '지각-추론 분리' 문제를 겪게 됩니다. 텍스트 중심의 결과 보상과 언어 매체 기반의 추론에 의존하는 기존 패러다임은 의도치 않게 모델이 시각적 지각을 건너뛰도록 유도합니다. 우리는 블라인드 실험을 통해 이를 실증적으로 검증했는데, 최신 정책들은 시각적 입력이 완전히 제거된 상태에서도 성능을 유지하거나 심지어 향상되는 놀라운 결과를 보였습니다. 이는 해당 모델들이 시각적 증거에 주목하는 대신 언어적 사전 지식을 악용하여 그럴듯한 답변을 생성하는 '맹목적 추론기'로 전락했음을 보여줍니다. 이에 대한 대응으로 우리는 '차분 시각 추론 정책(DVRP)'에 기반한 프레임워크인 '델타를 이용한 사고(Thinking with Deltas)'를 제안합니다. DVRP는 원본, 마스킹된 입력, 교란된 입력으로 구성된 시각적 트리플렛을 통해 내재적 지도 신호를 도입합니다. 이 방식은 마스킹된 입력과의 추론 차이를 최대화하여('시각적 민감성' 강화) 모델을 최적화하는 동시에, 교란된 입력과의 차이는 최소화하여('시각적 강건성' 보장) 최적화합니다. 추론의 변화를 시각 정보의 '델타(Delta)'와 엄격하게 일치시킴으로써, DVRP는 시각적 이해 능력을 본질적으로 강화하며 외부 주석이나 보조 도구 없이도 일반 및 의료 벤치마크 모두에서 최신 방법론들을 크게 능가하는 성능을 달성했습니다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced reasoning capabilities in Large Language Models. However, adapting RLVR to multimodal domains suffers from a critical \textit{perception-reasoning decoupling}. Existing paradigms, driven by text-centric outcome rewards, reasoning in language medium, inadvertently encourage models to bypass visual perception. We empirically validate this through blind experiments: state-of-the-art policies maintain or surprisingly improve performance even when visual inputs are entirely removed. This reveals that these models degenerate into \textit{blind reasoners}, exploiting linguistic priors to generate plausible answers instead of attending to visual evidence. In response, we propose \textbf{Thinking with Deltas}, a framework driven by a \textbf{Differential Visual Reasoning Policy (DVRP)}. DVRP introduces intrinsic supervision via visual triplets, comprising original, masked, and perturbed inputs. It optimizes the model to maximize reasoning divergence from masked inputs (enforcing \textit{visual sensitivity}) while minimizing divergence from perturbed inputs (ensuring \textit{visual robustness}). By aligning reasoning variations strictly with the \textit{Delta} of visual information, DVRP inherently bolsters visual understanding capabilities and significantly outperforms state-of-the-art methods on both general and medical benchmarks, without requiring external annotations or auxiliary tools.

0 Citations

0 Influential

29 Altmetric

145.0 Score

Original PDF

AI Analysis

Korean Summary

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 강화학습(RL) 과정에서 모델이 시각 정보를 무시하고 텍스트 패턴에만 의존하여 추론하는 '지각-추론 분리(Perception-Reasoning Decoupling)' 현상을 규명하고 해결책을 제시합니다. 연구진은 기존 모델들이 이미지가 없거나 가려진 상태에서도 성능이 유지되거나 오히려 상승하는 '맹목적 추론(Blind Reasoner)' 문제를 겪고 있음을 실험적으로 증명했습니다. 이를 해결하기 위해 제안된 'Thinking with Deltas' 프레임워크와 **DVRP(Differential Visual Reasoning Policy)** 알고리즘은 원본 이미지, 마스킹된 이미지, 노이즈가 추가된 이미지로 구성된 'Visual Triplets'을 활용하여 모델을 학습시킵니다. 이 방식은 모델이 시각 정보가 가려졌을 때는 추론 결과가 달라지도록(시각적 민감성 극대화) 하고, 무의미한 노이즈에는 결과가 유지되도록(시각적 강건성 극대화) 유도합니다. 결과적으로 일반 수학 및 의료 분야 벤치마크에서 시각적 근거에 기반한 추론 능력을 크게 향상시켰습니다.

Key Innovations

시각적 삼중항(Visual Triplets)을 이용한 내재적 감독(Intrinsic Supervision) 도입
지각-추론 결합을 위한 차분 시각 추론 정책(DVRP: Differential Visual Reasoning Policy)
시각적 민감성(Visual Sensitivity)과 시각적 강건성(Visual Robustness)을 동시에 최적화하는 이중 제약 조건
RLVR(검증 가능한 보상 기반 강화학습)에서의 '맹목적 추론(Blind Reasoner)' 현상 및 보상 해킹(Reward Hacking) 규명
추가적인 외부 데이터나 도구 없이 모델 자체의 시각적 그라운딩 능력 강화

Learning & Inference Impact

학습 과정에서 DVRP는 표준적인 GRPO(Group Relative Policy Optimization) 목표 함수에 두 가지 보조 손실(Loss) 항을 추가합니다. 하나는 마스킹된 입력에 대한 정책 분포와의 KL 발산(Divergence)을 최대화하여 시각 정보의 필요성을 강제하고, 다른 하나는 노이즈가 추가된 입력에 대한 KL 발산을 최소화하여 안정성을 확보합니다. 이는 학습 시 동일한 텍스트 쿼리에 대해 세 가지 다른 시각적 상태(원본, 마스킹, 노이즈)를 처리해야 하므로 연산량이 증가하지만, 결과적으로 모델이 시각적 증거를 무시하는 '지름길 학습(Shortcut Learning)'을 방지합니다. 추론 단계에서는 추가적인 연산이나 모듈 없이 학습된 단일 모델을 그대로 사용하되, 시각적 정보에 민감하게 반응하고 환각(Hallucination)이 줄어든 신뢰성 높은 추론 경로를 생성하게 됩니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!