자가 지도 학습 트랜스포머에서 분산된 객체 중심 속성 찾기
Finding Distributed Object-Centric Properties in Self-Supervised Transformers
DINO와 같은 자가 지도 학습 비전 트랜스포머(ViT)는 객체를 식별하는 놀라운 능력을 보여주며, 이는 일반적으로 최종 레이어의 [CLS] 토큰 어텐션 맵에서 관찰됩니다. 그러나 이러한 맵은 종종 잘못된 활성화를 포함하여 객체의 부정확한 위치 정보를 제공합니다. 이는 [CLS] 토큰이 이미지 수준의 목표를 기반으로 학습되어 전체 이미지를 요약하기 때문에 객체에 집중하지 못하기 때문입니다. 이러한 통합은 로컬 패치 수준 상호 작용에서 존재하는 객체 중심 정보를 희석합니다. 우리는 패치 수준 어텐션 구성 요소(쿼리, 키, 값)를 사용하여 모든 레이어에서 패치 간 유사성을 계산하여 이를 분석했습니다. 우리는 다음과 같은 사실을 발견했습니다. (1) 객체 중심 속성은 이전 연구에서 사용된 키 특징 또는 [CLS] 토큰만 사용하는 것과 달리, 세 가지 구성 요소($q, k, v$)에서 파생된 유사성 맵에 인코딩됩니다. (2) 이 객체 중심 정보는 네트워크 전체에 분산되어 있으며, 최종 레이어에만 국한되지 않습니다. 이러한 통찰력을 바탕으로, 당사는 이 분산된 객체 중심 정보를 추출하는 훈련이 필요 없는 방법인 Object-DINO를 소개합니다. Object-DINO는 모든 레이어의 어텐션 헤드를 패치의 유사성에 따라 클러스터링하고, 모든 객체에 해당하는 객체 중심 클러스터를 자동으로 식별합니다. 우리는 Object-DINO의 효과를 두 가지 응용 분야에서 입증했습니다. 첫째, 비지도 객체 발견 성능을 향상시켰습니다 (+3.6에서 +12.4 CorLoc 향상). 둘째, 멀티모달 대규모 언어 모델의 객체 환각을 줄이고 시각적 근거를 제공했습니다. 우리의 결과는 분산된 객체 중심 정보를 활용하면 추가적인 훈련 없이도 다운스트림 작업의 성능을 향상시킬 수 있음을 보여줍니다.
Self-supervised Vision Transformers (ViTs) like DINO show an emergent ability to discover objects, typically observed in [CLS] token attention maps of the final layer. However, these maps often contain spurious activations resulting in poor localization of objects. This is because the [CLS] token, trained on an image-level objective, summarizes the entire image instead of focusing on objects. This aggregation dilutes the object-centric information existing in the local, patch-level interactions. We analyze this by computing inter-patch similarity using patch-level attention components (query, key, and value) across all layers. We find that: (1) Object-centric properties are encoded in the similarity maps derived from all three components ($q, k, v$), unlike prior work that uses only key features or the [CLS] token. (2) This object-centric information is distributed across the network, not just confined to the final layer. Based on these insights, we introduce Object-DINO, a training-free method that extracts this distributed object-centric information. Object-DINO clusters attention heads across all layers based on the similarities of their patches and automatically identifies the object-centric cluster corresponding to all objects. We demonstrate Object-DINO's effectiveness on two applications: enhancing unsupervised object discovery (+3.6 to +12.4 CorLoc gains) and mitigating object hallucination in Multimodal Large Language Models by providing visual grounding. Our results demonstrate that using this distributed object-centric information improves downstream tasks without additional training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.