CrystaL: MLLM에서 시각적 잠재 변수의 자연스러운 생성
CrystaL: Spontaneous Emergence of Visual Latents in MLLMs
다중 모드 대규모 언어 모델(MLLM)은 강력한 언어 모델과 대규모 시각 인코더를 통합하여 뛰어난 성능을 달성했습니다. 이 중, 잠재 체인-오브-소프트(CoT) 방법은 연속적인 은닉 상태에서 암묵적인 추론을 가능하게 하여 원활한 시각-언어 통합과 빠른 추론을 지원합니다. 그러나, 기존의 잠재 CoT 방법에서 사용되는 휴리스틱하게 정의된 지도 신호는 중간 잠재 상태에서 중요한 시각 정보를 유지하는 데 제한적인 가이드 역할을 합니다. 이러한 한계를 해결하기 위해, 우리는 CrystaL(Crystallized Latent Reasoning)이라는 단일 단계 프레임워크를 제안합니다. CrystaL은 두 개의 경로를 통해 각각 손상되지 않은 이미지와 손상된 이미지를 처리합니다. CrystaL은 두 경로 간의 어텐션 패턴과 예측 분포를 명시적으로 정렬함으로써, 추가적인 주석이나 외부 모듈 없이 잠재 표현을 작업과 관련된 시각적 의미로 구체화합니다. 시각적 인식 능력을 요구하는 다양한 벤치마크에서 실시한 실험 결과, CrystaL은 최첨단 모델들을 능가하는 성능을 보이며, 세밀한 시각적 이해 능력을 향상시키면서도 견고한 추론 능력을 유지합니다.
Multimodal Large Language Models (MLLMs) have achieved remarkable performance by integrating powerful language backbones with large-scale visual encoders. Among these, latent Chain-of-Thought (CoT) methods enable implicit reasoning in continuous hidden states, facilitating seamless vision-language integration and faster inference. However, existing heuristically predefined supervision signals in latent CoT provide limited guidance for preserving critical visual information in intermediate latent states. To address this limitation, we propose CrystaL (Crystallized Latent Reasoning), a single-stage framework with two paths to process intact and corrupted images, respectively. By explicitly aligning the attention patterns and prediction distributions across the two paths, CrystaL crystallizes latent representations into task-relevant visual semantics, without relying on auxiliary annotations or external modules. Extensive experiments on perception-intensive benchmarks demonstrate that CrystaL consistently outperforms state-of-the-art baselines, achieving substantial gains in fine-grained visual understanding while maintaining robust reasoning capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.