ScalSelect: 효율적인 시각적 지시 조정을 위한 확장 가능한 무학습 멀티모달 데이터 선택
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning
대규모 시각적 지시 조정(Visual Instruction Tuning, VIT)은 다양한 멀티모달 작업 전반에 걸쳐 비전-언어 모델(VLM)의 성능을 발전시키는 핵심 패러다임이 되었습니다. 그러나 대규모 데이터셋을 통한 학습은 데이터 내의 중복성으로 인해 계산 비용이 높고 비효율적이며, 이는 학습 효율성을 향상시키기 위한 멀티모달 데이터 선택의 필요성을 촉발합니다. 기존의 VIT용 데이터 선택 방식들은 비용이 많이 드는 학습이나 기울기 계산을 요구합니다. 무학습(Training-free) 대안들은 대체로 프록시 모델이나 데이터셋, 지시와 무관한 표현, 그리고 2차 시간 복잡도의 쌍별(pairwise) 유사도에 의존하여 확장성과 표현의 충실도를 제한합니다. 본 연구에서는 외부 모델이나 보조 데이터셋의 필요성을 없애고 샘플 수에 대해 선형 시간 복잡도를 갖는, 확장 가능한 무학습 멀티모달 데이터 선택 방식인 ScalSelect를 제안합니다. ScalSelect는 우선 대상 VLM 내의 지시 토큰이 가장 많이 주목(attention)하는 시각적 특징을 추출하여 지시 관련 정보를 포착함으로써 샘플 표현을 구성합니다. 그 다음 전체 데이터셋 표현의 주요 부분공간(dominant subspace)을 가장 잘 근사하는 표현을 가진 샘플들을 식별하여, 쌍별 비교 없이도 확장 가능한 중요도 산출(scoring)을 가능하게 합니다. 다수의 VLM, 데이터셋, 선택 예산(budget)에 걸친 광범위한 실험은 ScalSelect가 단 16%의 데이터만으로 전체 데이터셋 학습 성능의 97.5% 이상을 달성하며, 일부 설정에서는 전체 데이터 학습의 성능을 능가함을 입증합니다. 코드는 \href{https://github.com/ChangtiWu/ScalSelect}{ScalSelect}에서 확인할 수 있습니다.
Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at \href{https://github.com/ChangtiWu/ScalSelect}{ScalSelect}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.