2604.08541v1 Apr 09, 2026 cs.CV

보는 것은 있지만 생각하지 못하는 현상: 다중 모드 혼합 전문가 모델에서의 주의 분산

Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts

Yang Zhang
Yang Zhang
Citations: 777
h-index: 14
Yueting Zhuang
Yueting Zhuang
Citations: 462
h-index: 12
Yongliang Shen
Yongliang Shen
Citations: 265
h-index: 9
Haiwen Hong
Haiwen Hong
Citations: 212
h-index: 5
Longtao Huang
Longtao Huang
Citations: 141
h-index: 7
Weiming Lu
Weiming Lu
Citations: 106
h-index: 3
Haolei Xu
Haolei Xu
Citations: 87
h-index: 4
Hongxing Li
Hongxing Li
Citations: 99
h-index: 3
Rui Zhou
Rui Zhou
Citations: 14
h-index: 2
Hui Xue
Hui Xue
Citations: 83
h-index: 4

다중 모드 혼합 전문가(MoE) 모델은 시각-언어 작업에서 놀라운 성능을 보여왔습니다. 그러나, 우리는 '보는 것은 있지만 생각하지 못하는'이라는 수수께끼 같은 현상을 발견했습니다. 즉, 모델은 이미지 내용을 정확하게 인식하지만, 후속 추론 과정에서는 실패하는 반면, 동일한 문제가 순수한 텍스트로 제시될 경우 올바르게 해결합니다. 체계적인 분석을 통해, 우리는 먼저 MoE 아키텍처에서 교차 모드 의미 공유가 존재한다는 것을 확인하여, 의미 정렬 실패가 유일한 원인이 아님을 입증했습니다. 또한, 시각 전문가와 도메인 전문가가 레이어별로 분리되어 있으며, 이미지 입력이 텍스트 입력에서 중간 레이어에서 상당한 라우팅 차이를 유발한다는 것을 밝혀냈습니다. 이러한 결과를 바탕으로, 우리는 '라우팅 분산 가설'을 제안합니다. 즉, 시각 입력을 처리할 때, 라우팅 메커니즘이 작업과 관련된 추론 전문가를 충분히 활성화하지 못합니다. 이 가설을 검증하기 위해, 우리는 라우팅을 기반으로 한 개입 방법을 설계하여 도메인 전문가 활성화를 강화했습니다. 세 가지 다중 모드 MoE 모델을 사용하여 6개의 벤치마크에서 수행한 실험 결과, 일관된 성능 향상이 나타났으며, 특히 복잡한 시각 추론 작업에서 최대 3.17%의 성능 향상을 보였습니다. 또한, 우리의 분석 결과는 도메인 전문가 식별이 샘플별 해결책이 아닌 인지 기능을 나타낸다는 것을 보여주며, 이는 서로 다른 정보 구조를 가진 작업 간의 효과적인 전송을 가능하게 합니다.

Original Abstract

Multimodal Mixture-of-Experts (MoE) models have achieved remarkable performance on vision-language tasks. However, we identify a puzzling phenomenon termed Seeing but Not Thinking: models accurately perceive image content yet fail in subsequent reasoning, while correctly solving identical problems presented as pure text. Through systematic analysis, we first verify that cross-modal semantic sharing exists in MoE architectures, ruling out semantic alignment failure as the sole explanation. We then reveal that visual experts and domain experts exhibit layer-wise separation, with image inputs inducing significant routing divergence from text inputs in middle layers where domain experts concentrate. Based on these findings, we propose the Routing Distraction hypothesis: when processing visual inputs, the routing mechanism fails to adequately activate task-relevant reasoning experts. To validate this hypothesis, we design a routing-guided intervention method that enhances domain expert activation. Experiments on three multimodal MoE models across six benchmarks demonstrate consistent improvements, with gains of up to 3.17% on complex visual reasoning tasks. Our analysis further reveals that domain expert identification locates cognitive functions rather than sample-specific solutions, enabling effective transfer across tasks with different information structures.

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!