입력 적응형 심층 집계를 이용한 시각-언어 미세 조정 시 추론 성능 저하 완화
Mitigating the Reasoning Tax in Vision-Language Fine-Tuning with Input-Adaptive Depth Aggregation
시각적 지시 데이터에 대한 지도 학습 미세 조정은 종종 시각-언어 모델(VLM)의 인식 능력을 향상시키지만, 동시에 추론 성능을 저하시켜 미세 조정 후 지속적인 추론 성능 저하 문제를 야기합니다. 본 연구에서는 이러한 성능 저하가 심층 표현에 대한 접근 방식의 변화와 관련이 있는지 조사하고, 고정된 심층 간 집계만으로도 추론 성능이 크게 회복된다는 사실을 발견했습니다. 이는 심층 간 접근 방식의 보존이 VLM 미세 조정에서 중요한 요소라는 것을 시사합니다. 이러한 관찰을 바탕으로, 입력-적응형 심층 집계(IADA)라는 경량화된 메커니즘을 제안합니다. IADA는 심층 간 정보 검색을 입력에 적응적으로 조정하고, 모달리티 정보를 고려하며, 저차원 병목 구조를 통해 효율적으로 파라미터화됩니다. Qwen3-VL-2B 모델에서 IADA는 평균 추론 점수를 9.5점, 평균 인식 점수를 3.3점 향상시키며, 이는 LoRA만 사용한 미세 조정 방식보다 0.14M의 추가 파라미터만 사용했을 때 달성된 결과입니다. 특히, 파라미터 효율적인 저차원 설정에서 가장 큰 성능 향상을 보였습니다.
Supervised fine-tuning (SFT) on visual instruction data often improves perceptual capabilities in vision-language models (VLMs) while degrading reasoning performance, creating a persistent reasoning tax during post-training. We investigate whether this degradation is related to disrupted access to depth-wise representations, and find that even fixed cross-depth aggregation substantially restores reasoning, suggesting that preserved cross-depth access is an important missing factor in VLM fine-tuning. Building on this observation, we propose Input-Adaptive Depth Aggregation (IADA), a lightweight mechanism that makes cross-depth retrieval input-adaptive, modality-aware, and efficiently parameterized through a low-rank bottleneck. On Qwen3-VL-2B, IADA improves the average reasoning score by 9.5 points and the average perception score by $3.3$ points over LoRA-only fine-tuning with only 0.14M additional parameters, with the strongest gains appearing in parameter-efficient low-rank settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.