TAP-ViTs: 작업 적응형 가지치기를 통한 비전 트랜스포머의 온디바이스 배포
TAP-ViTs: Task-Adaptive Pruning for On-Device Deployment of Vision Transformers
비전 트랜스포머(ViT)는 다양한 비전 작업에서 뛰어난 성능을 보이지만, 상당한 계산 및 메모리 요구 사항으로 인해 제한된 자원을 가진 모바일 및 엣지 장치에 효율적으로 배포하기 어렵습니다. 가지치기는 ViT의 복잡성을 줄이는 유망한 방법으로 부상했습니다. 그러나 기존 방법은 (i) 모든 장치에 공유되는 단일 가지치기 모델을 생성하여 장치 간의 이질성을 무시하거나, (ii) 장치 로컬 데이터를 사용하여 미세 조정을 수행하는데, 이는 제한된 온디바이스 리소스와 엄격한 개인 정보 보호 제약으로 인해 종종 불가능합니다. 결과적으로, 현재 방법은 개인 정보 보호가 가능한 모바일 컴퓨팅 환경에서 작업별 맞춤형 ViT 가지치기를 구현하는 데 한계가 있습니다. 본 논문에서는 TAP-ViTs라는 새로운 작업 적응형 가지치기 프레임워크를 소개합니다. TAP-ViTs는 어떠한 로컬 원시 데이터에도 접근하지 않고 장치별로 최적화된 ViT 모델을 생성합니다. 구체적으로, 개인 정보 보호 제약 하에서 장치 수준의 작업 특성을 추론하기 위해, 가우시안 혼합 모델(GMM) 기반의 메트릭 데이터셋 구축 메커니즘을 제안합니다. 각 장치는 경량 GMM을 사용하여 자체 데이터를 근사하고, GMM 파라미터만 업로드합니다. 이러한 파라미터를 사용하여 클라우드는 공개 데이터에서 분포적으로 일관된 샘플을 선택하여 각 장치를 대표하는 메트릭 데이터셋을 구축합니다. 이 프록시 데이터셋을 기반으로, 우리는 복합 뉴런의 중요도와 적응형 레이어의 중요도를 동시에 측정하는 이중 수준의 중요도 평가 기반 가지치기 전략을 개발했습니다. 이를 통해 각 장치의 계산 예산에 맞춘 세밀하고 작업 인식적인 가지치기를 수행할 수 있습니다. 다양한 ViT 구조와 데이터셋에 대한 광범위한 실험 결과, TAP-ViTs는 비교 가능한 압축 비율에서 최첨단 가지치기 방법보다 일관되게 우수한 성능을 보였습니다.
Vision Transformers (ViTs) have demonstrated strong performance across a wide range of vision tasks, yet their substantial computational and memory demands hinder efficient deployment on resource-constrained mobile and edge devices. Pruning has emerged as a promising direction for reducing ViT complexity. However, existing approaches either (i) produce a single pruned model shared across all devices, ignoring device heterogeneity, or (ii) rely on fine-tuning with device-local data, which is often infeasible due to limited on-device resources and strict privacy constraints. As a result, current methods fall short of enabling task-customized ViT pruning in privacy-preserving mobile computing settings. This paper introduces TAP-ViTs, a novel task-adaptive pruning framework that generates device-specific pruned ViT models without requiring access to any raw local data. Specifically, to infer device-level task characteristics under privacy constraints, we propose a Gaussian Mixture Model (GMM)-based metric dataset construction mechanism. Each device fits a lightweight GMM to approximate its private data distribution and uploads only the GMM parameters. Using these parameters, the cloud selects distribution-consistent samples from public data to construct a task-representative metric dataset for each device. Based on this proxy dataset, we further develop a dual-granularity importance evaluation-based pruning strategy that jointly measures composite neuron importance and adaptive layer importance, enabling fine-grained, task-aware pruning tailored to each device's computational budget. Extensive experiments across multiple ViT backbones and datasets demonstrate that TAP-ViTs consistently outperforms state-of-the-art pruning methods under comparable compression ratios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.