2604.03179v1 Apr 03, 2026 cs.LG

다중 모드 추론 모델의 강화 학습 기반 추가 훈련에서 환각의 역할 이해

Understanding the Role of Hallucination in Reinforcement Post-Training of Multimodal Reasoning Models

Vaishnav Tadiparthi
Vaishnav Tadiparthi
Citations: 123
h-index: 7
Kwonjoon Lee
Kwonjoon Lee
Citations: 28
h-index: 2
Hossein Nourkhiz Mahjoub
Hossein Nourkhiz Mahjoub
Citations: 502
h-index: 12
Gengwei Zhang
Gengwei Zhang
Citations: 44
h-index: 3
Jie Peng
Jie Peng
Citations: 172
h-index: 6
Zhen Tan
Zhen Tan
Citations: 2
h-index: 1
Mufan Qiu
Mufan Qiu
Citations: 51
h-index: 3
Yanyong Zhang
Yanyong Zhang
Citations: 20
h-index: 3
Tianlong Chen
Tianlong Chen
Citations: 367
h-index: 10

최근 대규모 추론 모델에서 강화 학습(RL)의 성공은 다중 모드 대규모 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위해 RL을 추가 훈련에 활용하는 추세를 이끌었습니다. 많은 연구에서 성능 향상이 보고되었지만, RL 훈련이 실제로 모델이 시각 정보를 학습하도록 돕는지는 여전히 불분명합니다. 본 연구에서는 모델의 환각 현상을 관점에서 다중 모드 추론 모델에 대한 RL 기반 추가 훈련의 효과를 분석하는 분석 프레임워크인 '환각 기반 단서 프레임워크(Hallucination-as-Cue Framework)'를 제안합니다. 구체적으로, 올바른 답을 도출하는 데 필요한 필수 정보를 제거하거나 대체하는 모달리티별 환각 유도 변조를 도입하여 모델이 환각을 통해 추론하도록 강제합니다. 이러한 변조를 훈련 및 평가 과정에서 모두 적용함으로써, 본 프레임워크는 RL 훈련의 역학을 진단하고 데이터셋의 내재적 특성을 이해하는 데 독특한 관점을 제공합니다. 여러 다중 모드 추론 벤치마크에 대한 광범위한 실험과 분석을 통해, RL 훈련에서 모델 환각의 역할이 이전보다 더 중요함을 밝혀냈습니다. 예를 들어, 순수한 환각 유도 설정에서 RL 추가 훈련은 모델의 추론 성능을 크게 향상시킬 수 있으며, 일부 경우에는 표준 훈련보다 더 나은 결과를 얻을 수 있습니다. 이러한 결과는 MLLM 추론 훈련에 대한 기존의 가정을 뒤집고, 더 모달리티에 민감한 RL 기반 훈련 설계 개발을 촉진합니다.

Original Abstract

The recent success of reinforcement learning (RL) in large reasoning models has inspired the growing adoption of RL for post-training Multimodal Large Language Models (MLLMs) to enhance their visual reasoning capabilities. Although many studies have reported improved performance, it remains unclear whether RL training truly enables models to learn from visual information. In this work, we propose the Hallucination-as-Cue Framework, an analytical framework designed to investigate the effects of RL-based post-training on multimodal reasoning models from the perspective of model hallucination. Specifically, we introduce hallucination-inductive, modality-specific corruptions that remove or replace essential information required to derive correct answers, thereby forcing the model to reason by hallucination. By applying these corruptions during both training and evaluation, our framework provides a unique perspective for diagnosing RL training dynamics and understanding the intrinsic properties of datasets. Through extensive experiments and analyses across multiple multimodal reasoning benchmarks, we reveal that the role of model hallucination for RL-training is more significant than previously recognized. For instance, we find that RL post-training under purely hallucination-inductive settings can still significantly improve models' reasoning performance, and in some cases even outperform standard training. These findings challenge prevailing assumptions about MLLM reasoning training and motivate the development of more modality-aware RL-based training designs.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!