2601.07359v1 Jan 12, 2026 cs.CV

정확하게 보고 있지만 잘못 말하는 현상: 훈련 없이 MLLM 내부 및 계층 간 정교화

Seeing Right but Saying Wrong: Inter- and Intra-Layer Refinement in MLLMs without Training

Shasha Li
Shasha Li
Citations: 634
h-index: 10
Jie Yu
Jie Yu
Citations: 575
h-index: 8
Shezheng Song
Shezheng Song
Citations: 348
h-index: 7

멀티모달 대규모 언어 모델(MLLM)은 다양한 시각-언어 작업에서 강력한 성능을 보여주었습니다. 그러나 이러한 모델의 내부 추론 과정은 종종 심각한 불일치를 보입니다. 즉, 더 깊은 계층에서는 올바른 시각적 영역에 집중할 수 있지만, 최종 예측은 초기 계층의 노이즈가 많은 주의 집중 현상으로 인해 자주 오도됩니다. 이는 모델이 내부적으로 이해하는 것과 실제로 표현하는 것 사이에 불일치가 발생하는 현상이며, 우리는 이를 '정확하게 보고 있지만 잘못 말하는' 현상이라고 정의합니다. 이러한 문제를 해결하기 위해, 우리는 추가적인 훈련 없이 시각적 이해력을 향상시키는 이중 관점 디코딩 정교화 전략인 DualPD를 제안합니다. DualPD는 두 가지 구성 요소로 구성됩니다. (1) 계층별 주의 집중을 기반으로 하는 대비 학습 모듈은, 가장 큰 주의 집중 변화를 보이는 계층 간의 출력 로짓을 비교하여 올바른 답변에 대한 확신이 어떻게 변화하는지 파악합니다. (2) 헤드별 정보 필터링 모듈은 관련 없는 영역에 집중하는 낮은 기여도를 가진 주의 집중 헤드를 억제하여 각 계층 내의 주의 집중 품질을 향상시킵니다. LLaVA 및 Qwen-VL 모델 패밀리에 속하는 다양한 멀티모달 벤치마크에서 수행된 실험 결과, DualPD는 훈련 없이도 일관되게 정확도를 향상시켜 효과와 일반화 가능성을 입증했습니다. 코드는 출판 시 공개될 예정입니다.

Original Abstract

Multimodal Large Language Models (MLLMs) have demonstrated strong capabilities across a variety of vision-language tasks. However, their internal reasoning often exhibits a critical inconsistency: although deeper layers may attend to the correct visual regions, final predictions are frequently misled by noisy attention from earlier layers. This results in a disconnect between what the model internally understands and what it ultimately expresses, a phenomenon we describe as seeing it right but saying it wrong. To address this issue, we propose DualPD, a dual-perspective decoding refinement strategy that enhances the visual understanding without any additional training. DualPD consists of two components. (1) The layer-wise attention-guided contrastive logits module captures how the belief in the correct answer evolves by comparing output logits between layers that exhibit the largest attention shift. (2) The head-wise information filtering module suppresses low-contribution attention heads that focus on irrelevant regions, thereby improving attention quality within each layer. Experiments conducted on both the LLaVA and Qwen-VL model families across multiple multimodal benchmarks demonstrate that DualPD consistently improves accuracy without training, confirming its effectiveness and generalizability. The code will be released upon publication.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!