2603.26330v1 Mar 27, 2026 cs.CV

입력 적응형 심층 집계를 이용한 시각-언어 미세 조정 시 추론 성능 저하 완화

Mitigating the Reasoning Tax in Vision-Language Fine-Tuning with Input-Adaptive Depth Aggregation

Junjie Wang
Junjie Wang
Citations: 12
h-index: 2
Yiming Ren
Yiming Ren
Citations: 1,664
h-index: 4
Yujiu Yang
Yujiu Yang
Citations: 93
h-index: 5

시각적 지시 데이터에 대한 지도 학습 미세 조정은 종종 시각-언어 모델(VLM)의 인식 능력을 향상시키지만, 동시에 추론 성능을 저하시켜 미세 조정 후 지속적인 추론 성능 저하 문제를 야기합니다. 본 연구에서는 이러한 성능 저하가 심층 표현에 대한 접근 방식의 변화와 관련이 있는지 조사하고, 고정된 심층 간 집계만으로도 추론 성능이 크게 회복된다는 사실을 발견했습니다. 이는 심층 간 접근 방식의 보존이 VLM 미세 조정에서 중요한 요소라는 것을 시사합니다. 이러한 관찰을 바탕으로, 입력-적응형 심층 집계(IADA)라는 경량화된 메커니즘을 제안합니다. IADA는 심층 간 정보 검색을 입력에 적응적으로 조정하고, 모달리티 정보를 고려하며, 저차원 병목 구조를 통해 효율적으로 파라미터화됩니다. Qwen3-VL-2B 모델에서 IADA는 평균 추론 점수를 9.5점, 평균 인식 점수를 3.3점 향상시키며, 이는 LoRA만 사용한 미세 조정 방식보다 0.14M의 추가 파라미터만 사용했을 때 달성된 결과입니다. 특히, 파라미터 효율적인 저차원 설정에서 가장 큰 성능 향상을 보였습니다.

Original Abstract

Supervised fine-tuning (SFT) on visual instruction data often improves perceptual capabilities in vision-language models (VLMs) while degrading reasoning performance, creating a persistent reasoning tax during post-training. We investigate whether this degradation is related to disrupted access to depth-wise representations, and find that even fixed cross-depth aggregation substantially restores reasoning, suggesting that preserved cross-depth access is an important missing factor in VLM fine-tuning. Building on this observation, we propose Input-Adaptive Depth Aggregation (IADA), a lightweight mechanism that makes cross-depth retrieval input-adaptive, modality-aware, and efficiently parameterized through a low-rank bottleneck. On Qwen3-VL-2B, IADA improves the average reasoning score by 9.5 points and the average perception score by $3.3$ points over LoRA-only fine-tuning with only 0.14M additional parameters, with the strongest gains appearing in parameter-efficient low-rank settings.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!