멀티모달 긴 연쇄 추론에서의 지식 충돌 진단
Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning
긴 생각의 사슬(CoT) 추론을 수행하는 멀티모달 대형 언어 모델(MLLM)은 서로 다른 지식 출처가 상충되는 신호를 제공할 때 자주 실패합니다. 우리는 이러한 실패를 지식 충돌이라는 통합된 개념 하에 정식화하며, 입력 수준의 객관적 충돌과 처리 수준의 실효적 충돌을 구분합니다. 내부 표현에 대한 프로빙을 통해 우리는 다음을 밝혀냈습니다: (I) 선형 분리 가능성: 서로 다른 충돌 유형은 얽혀 있기보다 선형적으로 분리 가능한 특징으로 명시적으로 인코딩됩니다; (II) 깊이 국소화: 충돌 신호는 중후반 레이어에 집중되며, 이는 충돌 인코딩을 위한 별도의 처리 단계가 있음을 나타냅니다; (III) 계층적 일관성: 궤적을 따라 노이즈가 있는 토큰 수준 신호를 집계하면 입력 수준의 충돌 유형을 강건하게 복구할 수 있습니다; 그리고 (IV) 방향 비대칭성: 충돌 상황에서 모델의 암묵적 출처 선호를 강화하는 것이 반대 출처를 강제하는 것보다 훨씬 쉽습니다. 우리의 연구 결과는 지식 충돌 하에서의 멀티모달 추론에 대한 메커니즘 수준의 관점을 제공하며, 긴 CoT 실패에 대한 체계적인 진단과 제어를 가능하게 합니다.
Multimodal large language models (MLLMs) in long chain-of-thought reasoning often fail when different knowledge sources provide conflicting signals. We formalize these failures under a unified notion of knowledge conflict, distinguishing input-level objective conflict from process-level effective conflict. Through probing internal representations, we reveal that: (I) Linear Separability: different conflict types are explicitly encoded as linearly separable features rather than entangled; (II) Depth Localization: conflict signals concentrate in mid-to-late layers, indicating a distinct processing stage for conflict encoding; (III) Hierarchical Consistency: aggregating noisy token-level signals along trajectories robustly recovers input-level conflict types; and (IV) Directional Asymmetry: reinforcing the model's implicit source preference under conflict is far easier than enforcing the opposite source. Our findings provide a mechanism-level view of multimodal reasoning under knowledge conflict and enable principled diagnosis and control of long-CoT failures.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.