두 번 살펴보세요: 멀티모달 대규모 언어 모델에서의 학습 불필요한 증거 강조 방법
Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models
이미지에 대한 질문에 답하려면 시각적 이해와 외부 지식을 결합하는 것이 종종 필요합니다. 멀티모달 대규모 언어 모델(MLLM)은 이러한 상황에 적합한 프레임워크를 제공하지만, 지식 기반의 복잡한 질문에 답변할 때 가장 관련성이 높은 시각적 및 텍스트 증거를 식별하는 데 어려움을 겪는 경우가 많습니다. 이러한 경우, 모델은 시각적 단서를 검색된 텍스트 증거와 통합해야 하는데, 이 텍스트 증거는 종종 노이즈가 많거나 부분적으로만 관련이 있을 수 있으며, 동시에 이미지 내의 미세한 시각 정보를 정확하게 파악해야 합니다. 본 연구에서는 학습이 필요 없는 추론 시 프레임워크인 'Look Twice (LoT)'를 소개합니다. LoT는 사전 학습된 MLLM이 멀티모달 증거를 활용하는 방식을 개선합니다. 구체적으로, 모델의 어텐션 패턴을 활용하여 특정 쿼리에 관련성이 높은 시각 영역과 검색된 텍스트 요소들을 추정하고, 추정된 증거에 기반하여 답변을 생성합니다. 선택된 단서들은 가벼운 프롬프트 레벨의 마커를 통해 강조되어 모델이 답변 생성 과정에서 관련 증거에 다시 집중하도록 유도합니다. 다양한 지식 기반의 시각 질의응답(VQA) 벤치마크에서의 실험 결과, LoT는 제로샷 MLLM에 비해 일관된 성능 향상을 보여줍니다. 또한, 시각 중심 및 환각 현상 관련 벤치마크에서의 추가적인 평가 결과, 텍스트 맥락이 없는 환경에서도 시각적 증거 강조만으로 모델 성능을 향상시킬 수 있으며, 이는 추가적인 학습이나 아키텍처 수정 없이 가능합니다. 소스 코드는 공개될 예정입니다.
Answering questions about images often requires combining visual understanding with external knowledge. Multimodal Large Language Models (MLLMs) provide a natural framework for this setting, but they often struggle to identify the most relevant visual and textual evidence when answering knowledge-intensive queries. In such scenarios, models must integrate visual cues with retrieved textual evidence that is often noisy or only partially relevant, while also localizing fine-grained visual information in the image. In this work, we introduce Look Twice (LoT), a training-free inference-time framework that improves how pretrained MLLMs utilize multimodal evidence. Specifically, we exploit the model attention patterns to estimate which visual regions and retrieved textual elements are relevant to a query, and then generate the answer conditioned on this highlighted evidence. The selected cues are highlighted through lightweight prompt-level markers that encourage the model to re-attend to the relevant evidence during generation. Experiments across multiple knowledge-based VQA benchmarks show consistent improvements over zero-shot MLLMs. Additional evaluations on vision-centric and hallucination-oriented benchmarks further demonstrate that visual evidence highlighting alone improves model performance in settings without textual context, all without additional training or architectural modifications. Source code will be publicly released.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.