2603.25720v1 Mar 26, 2026 cs.AI

R-C2: 순환 일관성 강화 학습이 다중 모드 추론을 향상시킨다

R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning

Zirui Zhang
Zirui Zhang
Citations: 110
h-index: 6
Haoyu Dong
Haoyu Dong
Citations: 112
h-index: 1
Kexin Pei
Kexin Pei
Citations: 6
h-index: 1
Chengzhi Mao
Chengzhi Mao
Citations: 34
h-index: 3

견고한 인지 및 추론은 다양한 감각 모드 간의 일관성을 필요로 합니다. 그러나 현재의 다중 모드 모델은 종종 이러한 원칙을 위반하여 동일한 개념에 대한 시각적 및 텍스트 표현에 대해 상반된 예측을 제공합니다. 기존의 투표 메커니즘은 이러한 실패를 가리고 오히려 체계적인 편향을 증폭시킬 수 있는 반면, 우리는 모드 간의 불일치가 학습을 위한 풍부하고 자연스러운 신호를 제공한다는 것을 보여줍니다. 우리는 RC2라는 강화 학습 프레임워크를 소개합니다. RC2는 내부 충돌을 해결하기 위해 모드 간의 순환 일관성을 적용합니다. 모델이 역추론을 수행하고, 모드를 전환하고, 순방향 추론을 통해 답변을 안정적으로 재구성하도록 요구함으로써, 레이블이 없는 밀집 보상을 얻습니다. 이러한 순환 제약은 모델이 자체적으로 내부 표현을 정렬하도록 장려합니다. 이러한 구조를 최적화하면 모드별 오류를 완화하고 추론 정확도를 최대 7.6 포인트까지 향상시킬 수 있습니다. 우리의 결과는 고급 추론이 데이터 규모를 확대하는 것뿐만 아니라, 세계에 대한 구조적으로 일관된 이해를 적용함으로써도 나타날 수 있음을 시사합니다.

Original Abstract

Robust perception and reasoning require consistency across sensory modalities. Yet current multimodal models often violate this principle, yielding contradictory predictions for visual and textual representations of the same concept. Rather than masking these failures with standard voting mechanisms, which can amplify systematic biases, we show that cross-modal inconsistency provides a rich and natural signal for learning. We introduce RC2, a reinforcement learning framework that resolves internal conflicts by enforcing cross-modal cycle consistency. By requiring a model to perform backward inference, switch modalities, and reliably reconstruct the answer through forward inference, we obtain a dense, label-free reward. This cyclic constraint encourages the model to align its internal representations autonomously. Optimizing for this structure mitigates modality-specific errors and improves reasoning accuracy by up to 7.6 points. Our results suggest that advanced reasoning emerges not only from scaling data, but also from enforcing a structurally consistent understanding of the world.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!