Ego: 임베딩 기반 시각-언어 모델의 개인화
Ego: Embedding-Guided Personalization of Vision-Language Models
일상생활에서 인간을 지원하는 AI 비서가 빠르게 발전하는 다중 모드 언어 모델의 발전으로 인해 점점 더 현실화되고 있습니다. 이러한 모델의 일반적인 특성을 극복하여 개인화된 경험을 제공하는 것이 중요한 과제입니다. 기존의 대규모 시각-언어 모델 개인화 방법은 종종 추가적인 학습 단계를 필요로 하여 일반성과 확장성을 제한하거나, 외부 사전 학습 모듈을 사용하는 복잡한 파이프라인을 필요로 하여 배포 효율성을 저해합니다. 본 연구에서는 모델이 가진 개인화된 개념을 포착하는 고유한 능력을 활용하는 효율적인 개인화 방법을 제안합니다. 구체적으로, 모델의 내부 어텐션 메커니즘을 활용하여 대상 개념을 주로 나타내는 시각적 토큰을 추출합니다. 이러한 토큰은 특정 개념에 대한 기억 역할을 하며, 모델이 테스트 이미지에서 해당 개념이 나타날 때 이를 회상하고 설명할 수 있도록 합니다. 저희는 제안하는 방법과 최첨단(SOTA) 방법을 다양한 개인화 설정(단일 개념, 다중 개념, 비디오 개인화)에 걸쳐 종합적이고 통일된 방식으로 평가했으며, 최소한의 개인화 오버헤드로 상당한 성능 향상을 보여주었습니다.
AI assistants that support humans in daily life are becoming increasingly feasible, driven by the rapid advancements in multimodal language models. A key challenge lies in overcoming the generic nature of these models to deliver personalized experiences. Existing approaches to personalizing large vision language models often rely on additional training stages, which limit generality and scalability, or on engineered pipelines with external pre-trained modules, which hinder deployment efficiency. In this work, we propose an efficient personalization method that leverages the model's inherent ability to capture personalized concepts. Specifically, we extract visual tokens that predominantly represent the target concept by utilizing the model's internal attention mechanisms. These tokens serve as a memory of that specific concept, enabling the model to recall and describe it when it appears in test images. We conduct a comprehensive and unified evaluation of our approach and SOTA methods across various personalization settings including single-concept, multi-concept, and video personalization, demonstrating strong performance gains with minimal personalization overhead.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.