비전 맘바 모델의 자기 회귀 사전 학습 성능 향상을 위한 분리자 활용
Separators in Enhancing Autoregressive Pretraining for Vision Mamba
최근 컴퓨터 비전 분야에서 주목받고 있는 상태 공간 모델인 맘바(Mamba)는 긴 시퀀스 데이터 처리에 효율적인 장점을 가지고 있습니다. 맘바의 고유한 인과 관계 기반 특성은 자기 회귀 사전 학습에 특히 적합합니다. 그러나 현재의 자기 회귀 사전 학습 방법은 짧은 시퀀스 작업에 제한되어, 맘바가 가진 긴 시퀀스 처리 능력을 충분히 활용하지 못합니다. 이러한 한계를 극복하기 위해, 본 연구에서는 비전 맘바 모델을 위한 혁신적인 자기 회귀 사전 학습 방법을 제안하며, 입력 시퀀스 길이를 크게 확장합니다. 우리는 자기 회귀 사전 학습을 위한 새로운 분리자( extbf{S}epara extbf{T}ors for extbf{A}uto extbf{R}egressive, extbf{STAR})를 도입하여 서로 다른 이미지를 구분하고 차별화합니다. 특히, 각 이미지 앞에 동일한 분리자를 삽입하여 이미지의 시작을 명확하게 표시합니다. 이 전략을 통해 비전 맘바 모델의 입력 시퀀스 길이를 4배까지 늘리면서도, 데이터셋 이미지의 원래 크기를 유지할 수 있습니다. 제안하는 긴 시퀀스 사전 학습 기술을 적용한 STAR-B 모델은 ImageNet-1k 데이터셋에서 83.5%의 높은 정확도를 달성했으며, 이는 비전 맘바 모델 분야에서 매우 경쟁력 있는 결과입니다. 이러한 결과는 본 연구의 방법론이 장거리 의존성을 효과적으로 활용하여 비전 모델의 성능을 향상시킬 수 있는 잠재력을 보여줍니다.
The state space model Mamba has recently emerged as a promising paradigm in computer vision, attracting significant attention due to its efficient processing of long sequence tasks. Mamba's inherent causal mechanism renders it particularly suitable for autoregressive pretraining. However, current autoregressive pretraining methods are constrained to short sequence tasks, failing to fully exploit Mamba's prowess in handling extended sequences. To address this limitation, we introduce an innovative autoregressive pretraining method for Vision Mamba that substantially extends the input sequence length. We introduce new \textbf{S}epara\textbf{T}ors for \textbf{A}uto\textbf{R}egressive pretraining to demarcate and differentiate between different images, known as \textbf{STAR}. Specifically, we insert identical separators before each image to demarcate its inception. This strategy enables us to quadruple the input sequence length of Vision Mamba while preserving the original dimensions of the dataset images. Employing this long sequence pretraining technique, our STAR-B model achieved an impressive accuracy of 83.5\% on ImageNet-1k, which is highly competitive in Vision Mamba. These results underscore the potential of our method in enhancing the performance of vision models through improved leveraging of long-range dependencies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.