VisualScratchpad: 시각 언어 모델의 추론 단계에서 시각적 개념 분석
VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models
뛰어난 성능을 보이는 시각 언어 모델도 여전히 부정확한 답변을 생성하는 경우가 많으며, 이러한 실패 원인을 파악하기는 종종 어렵습니다. 모델 내부 동작을 더 쉽게 이해하고 체계적인 디버깅을 가능하게 하기 위해, 추론 과정에서 시각적 개념 분석을 위한 인터랙티브 도구인 VisualScratchpad를 소개합니다. VisualScratchpad는 시각 인코더에 희소 오토인코더를 적용하고, 텍스트-이미지 어텐션을 통해 생성된 시각적 개념을 텍스트 토큰과 연결하여, 시각 인코더가 어떤 시각적 개념을 포착하고 언어 모델이 이를 어떻게 사용하는지 분석할 수 있도록 합니다. 또한, VisualScratchpad는 토큰-잠재 공간의 히트맵을 제공하여, 인과 관계 분석을 위한 효과적인 개념 제거에 필요한 잠재 변수를 제시합니다. 사례 연구를 통해, 교차 모달 정렬 부족, 오해를 불러일으키는 시각적 개념, 활용되지 않는 숨겨진 단서 등 세 가지 새로운 실패 원인을 밝혀냈습니다. 프로젝트 페이지: https://hyesulim.github.io/visual_scratchpad_projectpage/
High-performing vision language models still produce incorrect answers, yet their failure modes are often difficult to explain. To make model internals more accessible and enable systematic debugging, we introduce VisualScratchpad, an interactive interface for visual concept analysis during inference. We apply sparse autoencoders to the vision encoder and link the resulting visual concepts to text tokens via text-to-image attention, allowing us to examine which visual concepts are both captured by the vision encoder and utilized by the language model. VisualScratchpad also provides a token-latent heatmap view that suggests a sufficient set of latents for effective concept ablation in causal analysis. Through case studies, we reveal three underexplored failure modes: limited cross-modal alignment, misleading visual concepts, and unused hidden cues. Project page: https://hyesulim.github.io/visual_scratchpad_projectpage/
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.