2602.24181v1 Feb 27, 2026 cs.CV

혼합 데이터 셋을 활용한 DINO 모델: 잡식성 비전 인코더

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Rishabh Kabra
Rishabh Kabra
Citations: 2,271
h-index: 11
M. Ovsjanikov
M. Ovsjanikov
Citations: 11,148
h-index: 52
Drew A. Hudson
Drew A. Hudson
Citations: 71
h-index: 3
Ye Xia
Ye Xia
Citations: 6,759
h-index: 6
Skanda Koppula
Skanda Koppula
Citations: 2,849
h-index: 16
André Araújo
André Araújo
Citations: 248
h-index: 4
Joao Carreira
Joao Carreira
Citations: 18
h-index: 3
Niloy J. Mitra
Niloy J. Mitra
Citations: 166
h-index: 5

DINOv2와 같은 사전 학습된 비전 인코더는 단일 모달(unimodal) 작업에서 뛰어난 성능을 보여줍니다. 그러나, 우리는 이러한 모델들의 특징 표현이 서로 다른 모달 간에 제대로 정렬되지 않는다는 것을 확인했습니다. 예를 들어, 동일한 장면의 RGB 이미지와 해당 깊이 맵의 특징 임베딩 간의 코사인 유사도는 완전히 무관한 두 이미지 간의 유사도와 거의 동일합니다. 이러한 문제를 해결하기 위해, 우리는 모달에 관계없이 특징 공간을 학습하는 새로운 프레임워크인 Omnivorous Vision Encoder를 제안합니다. 이 인코더는 두 가지 목표를 가지고 학습됩니다. 첫째, 동일한 장면의 서로 다른 모달 간의 특징 정렬을 최대화하고, 둘째, DINOv2와 같은 완전히 고정된 '선생 모델'의 출력에 학습된 표현을 연결하는 지식 증류(distillation) 목표를 사용합니다. 결과적으로 생성된 '학생' 인코더는 입력 모달(RGB, 깊이, 분할 등)에 관계없이 주어진 장면을 위한 일관되고 강력한 임베딩을 생성함으로써 '잡식성(omnivorous)'을 갖게 됩니다. 이러한 접근 방식은 원래 모델의 판별력 있는 의미를 유지하면서 견고한 교차 모달(cross-modal) 이해를 가능하게 합니다.

Original Abstract

Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature representations are poorly aligned across different modalities. For instance, the feature embedding for an RGB image and its corresponding depth map of the same scene exhibit a cosine similarity that is nearly identical to that of two random, unrelated images. To address this, we propose the Omnivorous Vision Encoder, a novel framework that learns a modality-agnostic feature space. We train the encoder with a dual objective: first, to maximize the feature alignment between different modalities of the same scene; and second, a distillation objective that anchors the learned representations to the output of a fully frozen teacher such as DINOv2. The resulting student encoder becomes "omnivorous" by producing a consistent, powerful embedding for a given scene, regardless of the input modality (RGB, Depth, Segmentation, etc.). This approach enables robust cross-modal understanding while retaining the discriminative semantics of the original foundation model.

0 Citations
0 Influential
26 Altmetric
130.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!