2603.17228v1 Mar 18, 2026 cs.CV

드롭아웃에서 회복까지: MLLM에서의 분할(Segmentation)에 대한 메커니즘 분석

From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs

Zeynep Akata
Zeynep Akata
Citations: 1,547
h-index: 21
Boyong Wu
Boyong Wu
Citations: 186
h-index: 4
Sanghwan Kim
Sanghwan Kim
Citations: 55
h-index: 2

다중 모드 대규모 언어 모델(MLLM)은 점점 더 많은 픽셀 단위의 시각 작업에 적용되고 있지만, 그들의 공간적 이해 능력에 대한 근본적인 이해는 여전히 부족합니다. 본 연구에서는 비전 인코더, 어댑터, 그리고 LLM을 포함한 전체 MLLM 파이프라인에서 레이어별 선형 프로빙 평가를 통해 분할 능력을 조사합니다. 또한, 교차 토큰 어텐션이 시각적 표현을 점진적으로 개선하는지 확인하기 위해 어텐션 기반의 개입 분석을 수행하고, 이미지 토큰 간의 양방향 어텐션이 공간적 일관성에 미치는 영향을 평가합니다. 분석 결과, 어댑터는 분할 표현의 저하를 유발하지만, LLM 레이어는 어텐션을 통해 점진적으로 회복되는 것으로 나타났습니다. 정확하게 분류된 토큰이 잘못 분류된 주변 토큰을 올바른 레이블로 유도하는 방식으로 회복이 이루어집니다. 초기 이미지 토큰 위치에서 이러한 회복은 인과적 어텐션에 의해 제한되지만, 이미지 토큰 간의 양방향 어텐션은 이러한 제한을 완화합니다. 이러한 결과는 MLLM이 분할을 위해 시각 정보를 처리하는 메커니즘에 대한 이해를 제공하며, 향후 분할 기능을 갖춘 모델 설계에 기여할 것입니다.

Original Abstract

Multimodal Large Language Models (MLLMs) are increasingly applied to pixel-level vision tasks, yet their intrinsic capacity for spatial understanding remains poorly understood. We investigate segmentation capacity through a layerwise linear probing evaluation across the entire MLLM pipeline: vision encoder, adapter, and LLM. We further conduct an intervention based attention knockout analysis to test whether cross-token attention progressively refines visual representations, and an evaluation of bidirectional attention among image tokens on spatial consistency. Our analysis reveals that the adapter introduces a segmentation representation drop-off, but LLM layers progressively recover through attention-mediated refinement, where correctly classified tokens steer misclassified neighbors toward the correct label. At early image token positions, this recovery is bounded by causal attention, which bidirectional attention among image tokens alleviates. These findings provide a mechanistic account of how MLLMs process visual information for segmentation, informing the design of future segmentation-capable models.

0 Citations
0 Influential
10.5 Altmetric
52.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!