2601.10129v1 Jan 15, 2026 cs.CV

LaViT: 잠재적인 시각적 사고 정렬을 통한 다중 모드 추론

LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

Linqi Song
Linqi Song
Citations: 10
h-index: 2
Haoyu Yang
Haoyu Yang
Citations: 39
h-index: 2
Linquan Wu
Linquan Wu
Citations: 35
h-index: 2
Tianxiang Jiang
Tianxiang Jiang
Citations: 544
h-index: 4
Yifei Dong
Yifei Dong
Citations: 75
h-index: 5
Fengji Zhang
Fengji Zhang
Citations: 3
h-index: 1
Shichaang Meng
Shichaang Meng
Citations: 2
h-index: 1
Ai Xuan
Ai Xuan
Citations: 2
h-index: 1
J. Keung
J. Keung
Citations: 114
h-index: 6

현재의 다중 모드 잠재 추론은 종종 외부 감독(예: 보조 이미지)에 의존하며, 내재적인 시각적 주의 역학을 간과합니다. 본 연구에서는 지식 증류 과정에서 발생하는 중요한 '인지 격차(Perception Gap)'를 확인했습니다. 학생 모델은 종종 교사의 텍스트 출력을 모방하는 동시에 근본적으로 다른 시각 영역에 주의를 기울이며, 결과적으로 시각적 인지보다는 언어적 선입견에 의존하게 됩니다. 이러한 문제를 해결하기 위해, 본 연구에서는 정적 임베딩 대신 잠재적인 시각적 사고를 정렬하는 프레임워크인 LaViT를 제안합니다. LaViT는 학생 모델이 텍스트 생성을 수행하기 전에 교사의 시각적 의미와 주의 경로를 자기 회귀적으로 재구성하도록 강제하며, 단축 학습을 방지하기 위해 커리큘럼 기반의 감각 게이팅 메커니즘을 사용합니다. 광범위한 실험 결과, LaViT는 시각적 기반을 크게 향상시켜 복잡한 추론 작업에서 최대 +16.9%의 성능 향상을 달성했으며, 30억 개의 파라미터로 구성된 소형 모델이 GPT-4o와 같은 더 크고 독점적인 모델, 그리고 공개 소스 변형 모델보다 우수한 성능을 보였습니다.

Original Abstract

Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.

2 Citations
0 Influential
3 Altmetric
17.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!