2604.10228v1 Apr 11, 2026 cs.AI

SVSR: 다중 모드 추론을 위한 자체 검증 및 자체 수정 패러다임

SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning

Zhonghua Wang
Zhonghua Wang
Citations: 104
h-index: 3
Zhe Qian
Zhe Qian
Citations: 13
h-index: 1
Yanbiao Ma
Yanbiao Ma
Citations: 47
h-index: 4
Nianbing Su
Nianbing Su
Citations: 0
h-index: 0
Zhongxing Xu
Zhongxing Xu
Citations: 241
h-index: 10
Fei Luo
Fei Luo
Citations: 13
h-index: 1
Zhuohan Ouyang
Zhuohan Ouyang
Citations: 0
h-index: 0
Hebei Li
Hebei Li
Citations: 8
h-index: 1
Yueying Li
Yueying Li
Citations: 0
h-index: 0

현재의 다중 모드 모델은 종종 피상적인 추론으로 인해 불완전하거나 일관성 없는 사고 과정으로 인해 발생하는 오류를 겪습니다. 이러한 한계를 해결하기 위해, 우리는 모델의 추론 파이프라인에 자체 검증 및 자체 수정을 명시적으로 통합하는 통합 프레임워크인 Self-Verification and Self-Rectification (SVSR)을 제안합니다. SVSR은 복잡한 시각적 이해 및 다중 모드 추론 작업에서 견고성과 신뢰성을 크게 향상시킵니다. SVSR은 새로운 세 단계의 학습 패러다임을 기반으로 구축되었습니다. 첫째, 우리는 사전 학습된 시각-언어 모델에서 추론 과정을 개선하여 고품질의 통합 선호도 데이터 세트를 구축합니다. 여기에는 전방향 및 역방향 추론을 모두 포함하여 자기 성찰 신호를 포함합니다. 둘째, 우리는 이 데이터 세트에 대한 콜드-스타트 감독 미세 조정을 수행하여 구조화되고 다단계 추론 동작을 학습합니다. 셋째, 우리는 강력한 교사 VLM에 의해 필터링된 고품질의 모델 생성 추론 과정을 지속적으로 학습 코퍼스에 추가하는 Semi-online Direct Preference Optimization (Semi-online DPO) 프로세스를 적용합니다. 이 파이프라인을 통해 모델은 자체 검증 및 자체 수정 능력을 학습하고, 이끌어내고, 개선할 수 있습니다. 다양한 벤치마크에서 수행된 광범위한 실험 결과, SVSR은 추론 정확도를 향상시키고, 새로운 작업 및 질문 유형에 대한 더 강력한 일반화를 가능하게 합니다. 주목할 점은, 명시적인 자기 성찰 추론으로 학습된 모델은 명시적인 추론 과정이 제공되지 않는 경우에도 강력한 기준 모델보다 뛰어난 암시적 추론 능력을 보여줍니다. 이러한 결과는 더 신뢰할 수 있고, 자기 성찰적이며, 인지적으로 일치하는 다중 모드 시스템을 구축하는 데 SVSR의 잠재력을 강조합니다.

Original Abstract

Current multimodal models often suffer from shallow reasoning, leading to errors caused by incomplete or inconsistent thought processes. To address this limitation, we propose Self-Verification and Self-Rectification (SVSR), a unified framework that explicitly integrates self-verification and self-rectification into the model's reasoning pipeline, substantially improving robustness and reliability in complex visual understanding and multimodal reasoning tasks. SVSR is built on a novel three-stage training paradigm. First, we construct a high-quality unified preference dataset by refining reasoning traces from pre-trained vision-language models, incorporating both forward and backward reasoning to embed self-reflective signals. Second, we perform cold-start supervised fine-tuning on this dataset to learn structured, multi-step reasoning behaviors. Third, we apply a Semi-online Direct Preference Optimization (Semi-online DPO) process, continuously augmenting the training corpus with high-quality, model-generated reasoning traces filtered by a powerful teacher VLM. This pipeline enables the model to learn, elicit, and refine its ability to self-verify and self-rectify. Extensive experiments across diverse benchmarks demonstrate that SVSR improves reasoning accuracy and enables stronger generalization to unseen tasks and question types. Notably, once trained with explicit self-reflective reasoning, the model also exhibits improved implicit reasoning ability, outperforming strong baselines even when no explicit reasoning traces are provided. These results highlight the potential of SVSR for building more dependable, introspective, and cognitively aligned multimodal systems.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!