2603.09771v1 Mar 10, 2026 cs.CV

Ego: 임베딩 기반 시각-언어 모델의 개인화

Ego: Embedding-Guided Personalization of Vision-Language Models

Vaggelis Dorovatas
Vaggelis Dorovatas
Citations: 8
h-index: 2
Soroush Seifi
Soroush Seifi
Citations: 128
h-index: 6
Simon Gardier
Simon Gardier
Citations: 0
h-index: 0
Daniel Olmeda Reino
Daniel Olmeda Reino
Citations: 383
h-index: 9
Rahaf Aljundi
Rahaf Aljundi
Citations: 0
h-index: 0

일상생활에서 인간을 지원하는 AI 비서가 빠르게 발전하는 다중 모드 언어 모델의 발전으로 인해 점점 더 현실화되고 있습니다. 이러한 모델의 일반적인 특성을 극복하여 개인화된 경험을 제공하는 것이 중요한 과제입니다. 기존의 대규모 시각-언어 모델 개인화 방법은 종종 추가적인 학습 단계를 필요로 하여 일반성과 확장성을 제한하거나, 외부 사전 학습 모듈을 사용하는 복잡한 파이프라인을 필요로 하여 배포 효율성을 저해합니다. 본 연구에서는 모델이 가진 개인화된 개념을 포착하는 고유한 능력을 활용하는 효율적인 개인화 방법을 제안합니다. 구체적으로, 모델의 내부 어텐션 메커니즘을 활용하여 대상 개념을 주로 나타내는 시각적 토큰을 추출합니다. 이러한 토큰은 특정 개념에 대한 기억 역할을 하며, 모델이 테스트 이미지에서 해당 개념이 나타날 때 이를 회상하고 설명할 수 있도록 합니다. 저희는 제안하는 방법과 최첨단(SOTA) 방법을 다양한 개인화 설정(단일 개념, 다중 개념, 비디오 개인화)에 걸쳐 종합적이고 통일된 방식으로 평가했으며, 최소한의 개인화 오버헤드로 상당한 성능 향상을 보여주었습니다.

Original Abstract

AI assistants that support humans in daily life are becoming increasingly feasible, driven by the rapid advancements in multimodal language models. A key challenge lies in overcoming the generic nature of these models to deliver personalized experiences. Existing approaches to personalizing large vision language models often rely on additional training stages, which limit generality and scalability, or on engineered pipelines with external pre-trained modules, which hinder deployment efficiency. In this work, we propose an efficient personalization method that leverages the model's inherent ability to capture personalized concepts. Specifically, we extract visual tokens that predominantly represent the target concept by utilizing the model's internal attention mechanisms. These tokens serve as a memory of that specific concept, enabling the model to recall and describe it when it appears in test images. We conduct a comprehensive and unified evaluation of our approach and SOTA methods across various personalization settings including single-concept, multi-concept, and video personalization, demonstrating strong performance gains with minimal personalization overhead.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!