2602.01167v1 Feb 01, 2026 cs.AI

모든 개별 레이어가 유용한가? 시각-언어 모델의 태스크 간섭 레이어에 대한 실증적 연구

Do All Individual Layers Help? An Empirical Study of Task-Interfering Layers in Vision-Language Models

Weili Guan
Weili Guan
Citations: 1
h-index: 1
Zeke Xie
Zeke Xie
Citations: 3
h-index: 1
Shuo Yang
Shuo Yang
Citations: 13
h-index: 2
Zhiming Liu
Zhiming Liu
Citations: 26
h-index: 2
Yujie Wei
Yujie Wei
Citations: 1
h-index: 1
Lei Feng
Lei Feng
Citations: 17
h-index: 2
Xiu Su
Xiu Su
Citations: 11
h-index: 2
Xiaobo Xia
Xiaobo Xia
Citations: 1
h-index: 1

현재의 VLM(시각-언어 모델)들은 광범위한 멀티모달 태스크에 걸쳐 그 능력을 입증해왔습니다. 일반적으로 사전 학습된 VLM에서는 다운스트림 태스크를 예측하기 위해 기본적으로 모든 레이어가 사용됩니다. 우리는 파라미터를 0으로 만드는 것과 같이 단일 레이어에 개입하는 것이 특정 태스크의 성능을 향상시킬 수 있음을 발견했으며, 이는 일부 레이어가 다운스트림 태스크에 도움이 되기보다는 오히려 방해가 된다는 것을 시사합니다. 우리는 레이어 개입을 통해 개별 레이어가 서로 다른 태스크에 어떻게 영향을 미치는지 체계적으로 조사합니다. 구체적으로, 각 레이어에 개입한 후 기본 모델 대비 성능 변화를 측정하고, 특정 레이어를 우회했을 때 성능이 향상되는 것을 관찰합니다. 이러한 향상은 모델과 데이터셋 전반에 걸쳐 일반화될 수 있으며, 이는 다운스트림 태스크의 성능을 저해하는 '태스크 간섭 레이어(Task-Interfering Layers)'가 존재함을 나타냅니다. 우리는 주어진 태스크에 대해 VLM의 각 레이어에 개입하는 효과를 정량화하는 '태스크-레이어 상호작용 벡터(Task-Layer Interaction Vector)'를 도입합니다. 이러한 태스크 간섭 레이어는 태스크별 민감도 패턴을 보이며, 유사한 능력을 필요로 하는 태스크들은 태스크-레이어 상호작용 벡터의 높은 유사성에서 알 수 있듯이 레이어 개입 하에서 일관된 반응 경향을 보입니다. 이러한 발견에서 영감을 받아, 우리는 주어진 태스크에 대해 가장 방해가 되는 레이어를 동적으로 식별하고 우회하는 훈련이 필요 없는 테스트 타임 적응 방법인 TaLo(Task-Adaptive Layer Knockout)를 제안합니다. 파라미터 업데이트 없이, TaLo는 ScienceQA의 Maps 태스크에서 Qwen-VL의 정확도를 최대 16.6% 향상시키는 등 다양한 모델과 데이터셋에서 성능을 개선합니다. 우리의 연구는 사전 학습된 VLM에서 예상치 못한 형태의 모듈성을 밝혀내고, 추론 시 숨겨진 능력을 잠금 해제할 수 있는 훈련이 필요 없는 플러그 앤 플레이 메커니즘을 제공합니다. 소스 코드는 공개될 예정입니다.

Original Abstract

Current VLMs have demonstrated capabilities across a wide range of multimodal tasks. Typically, in a pretrained VLM, all layers are engaged by default to make predictions on downstream tasks. We find that intervening on a single layer, such as by zeroing its parameters, can improve the performance on certain tasks, indicating that some layers hinder rather than help downstream tasks. We systematically investigate how individual layers influence different tasks via layer intervention. Specifically, we measure the change in performance relative to the base model after intervening on each layer and observe improvements when bypassing specific layers. This improvement can be generalizable across models and datasets, indicating the presence of Task-Interfering Layers that harm downstream tasks' performance. We introduce Task-Layer Interaction Vector, which quantifies the effect of intervening on each layer of a VLM given a task. These task-interfering layers exhibit task-specific sensitivity patterns: tasks requiring similar capabilities show consistent response trends under layer interventions, as evidenced by the high similarity in their task-layer interaction vectors. Inspired by these findings, we propose TaLo (Task-Adaptive Layer Knockout), a training-free, test-time adaptation method that dynamically identifies and bypasses the most interfering layer for a given task. Without parameter updates, TaLo improves performance across various models and datasets, including boosting Qwen-VL's accuracy on the Maps task in ScienceQA by up to 16.6%. Our work reveals an unexpected form of modularity in pretrained VLMs and provides a plug-and-play, training-free mechanism to unlock hidden capabilities at inference time. The source code will be publicly available.

0 Citations
0 Influential
1 Altmetric
5.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!