2602.00574v1 Jan 31, 2026 cs.AI

잠재 임베딩을 활용한 혼합 모달 생각의 사슬(Chain-of-Thought) 추론 학습

Learning Modal-Mixed Chain-of-Thought Reasoning with Latent Embeddings

Biwei Huang
Biwei Huang
Citations: 18
h-index: 2
Mohammad Atif Quamar
Mohammad Atif Quamar
Citations: 1
h-index: 1
Yifei Shao
Yifei Shao
Citations: 17
h-index: 2
Kun Zhou
Kun Zhou
Citations: 75
h-index: 5
Ziming Xu
Ziming Xu
Citations: 1
h-index: 1
Shibo Hao
Shibo Hao
University of California, San Diego
Citations: 1,954
h-index: 13
Zhiting Hu
Zhiting Hu
Citations: 21
h-index: 3
Zhen Wang
Zhen Wang
Citations: 321
h-index: 4

우리는 멀티모달 추론을 더 잘 처리하기 위해 언어의 영역을 넘어 생각의 사슬(Chain-of-Thought, CoT)을 확장하는 방법을 연구합니다. CoT는 LLM과 VLM이 중간 단계를 명확히 표현하는 데 도움을 주지만, 텍스트 전용 형태는 핵심적인 중간 상태가 본질적으로 시각적인, 시각 정보가 중요한 문제에서 종종 실패합니다. 이에 우리는 텍스트 토큰과 잠재 임베딩(latent embeddings)으로 표현된 압축된 시각적 스케치를 교차시키는 혼합 모달(modal-mixed) CoT를 제안합니다. VLM의 기존 지식과 능력을 저해하지 않으면서 모달리티 간의 간극을 좁히기 위해, VLM 자체를 인코더로 사용하고 언어 백본이 자신의 중간 시각 임베딩을 재구성하도록 훈련시켜 시각적 잠재 공간의 의미론적 정렬을 보장합니다. 더 나아가 특수 제어 토큰에 의해 호출되고 VLM의 은닉 상태(hidden states)를 조건으로 하는 디퓨전 기반 잠재 디코더를 부착합니다. 이러한 방식으로 디퓨전 헤드는 세밀한 지각적 세부 사항을 담당하고 VLM은 고차원적인 의도를 지정하게 하여, 역할을 명확히 분리하고 VLM의 최적화 부담을 줄입니다. 훈련은 두 단계로 진행됩니다. 첫째, 텍스트와 잠재 변수가 교차된 데이터에 대해 다음 토큰 예측 및 잠재 재구성을 결합한 목표로 지도 미세 조정(SFT)을 수행합니다. 둘째, 언제 모달리티를 전환하고 긴 추론 사슬을 구성할지를 가르치는 강화 학습을 진행합니다. 11가지의 다양한 멀티모달 추론 과제에 대한 광범위한 실험을 통해, 제안된 방법이 언어 전용 모델이나 다른 CoT 방법들보다 더 우수한 성능을 보임을 입증합니다. 관련 코드는 공개될 예정입니다.

Original Abstract

We study how to extend chain-of-thought (CoT) beyond language to better handle multimodal reasoning. While CoT helps LLMs and VLMs articulate intermediate steps, its text-only form often fails on vision-intensive problems where key intermediate states are inherently visual. We introduce modal-mixed CoT, which interleaves textual tokens with compact visual sketches represented as latent embeddings. To bridge the modality gap without eroding the original knowledge and capability of the VLM, we use the VLM itself as an encoder and train the language backbone to reconstruct its own intermediate vision embeddings, to guarantee the semantic alignment of the visual latent space. We further attach a diffusion-based latent decoder, invoked by a special control token and conditioned on hidden states from the VLM. In this way, the diffusion head carries fine-grained perceptual details while the VLM specifies high-level intent, which cleanly disentangles roles and reduces the optimization pressure of the VLM. Training proceeds in two stages: supervised fine-tuning on traces that interleave text and latents with a joint next-token and latent-reconstruction objective, followed by reinforcement learning that teaches when to switch modalities and how to compose long reasoning chains. Extensive experiments across 11 diverse multimodal reasoning tasks, demonstrate that our method yields better performance than language-only and other CoT methods. Our code will be publicly released.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!