혼합 데이터 셋을 활용한 DINO 모델: 잡식성 비전 인코더
A Mixed Diet Makes DINO An Omnivorous Vision Encoder
DINOv2와 같은 사전 학습된 비전 인코더는 단일 모달(unimodal) 작업에서 뛰어난 성능을 보여줍니다. 그러나, 우리는 이러한 모델들의 특징 표현이 서로 다른 모달 간에 제대로 정렬되지 않는다는 것을 확인했습니다. 예를 들어, 동일한 장면의 RGB 이미지와 해당 깊이 맵의 특징 임베딩 간의 코사인 유사도는 완전히 무관한 두 이미지 간의 유사도와 거의 동일합니다. 이러한 문제를 해결하기 위해, 우리는 모달에 관계없이 특징 공간을 학습하는 새로운 프레임워크인 Omnivorous Vision Encoder를 제안합니다. 이 인코더는 두 가지 목표를 가지고 학습됩니다. 첫째, 동일한 장면의 서로 다른 모달 간의 특징 정렬을 최대화하고, 둘째, DINOv2와 같은 완전히 고정된 '선생 모델'의 출력에 학습된 표현을 연결하는 지식 증류(distillation) 목표를 사용합니다. 결과적으로 생성된 '학생' 인코더는 입력 모달(RGB, 깊이, 분할 등)에 관계없이 주어진 장면을 위한 일관되고 강력한 임베딩을 생성함으로써 '잡식성(omnivorous)'을 갖게 됩니다. 이러한 접근 방식은 원래 모델의 판별력 있는 의미를 유지하면서 견고한 교차 모달(cross-modal) 이해를 가능하게 합니다.
Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature representations are poorly aligned across different modalities. For instance, the feature embedding for an RGB image and its corresponding depth map of the same scene exhibit a cosine similarity that is nearly identical to that of two random, unrelated images. To address this, we propose the Omnivorous Vision Encoder, a novel framework that learns a modality-agnostic feature space. We train the encoder with a dual objective: first, to maximize the feature alignment between different modalities of the same scene; and second, a distillation objective that anchors the learned representations to the output of a fully frozen teacher such as DINOv2. The resulting student encoder becomes "omnivorous" by producing a consistent, powerful embedding for a given scene, regardless of the input modality (RGB, Depth, Segmentation, etc.). This approach enables robust cross-modal understanding while retaining the discriminative semantics of the original foundation model.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.