2605.14621v1 May 14, 2026 cs.CV

우리가 환각 현상을 완화하기 위해 정말로 외부 도구가 필요한가? SIRA: 공유된 접두사를 활용한 내부적 추론 재구성

Do We Really Need External Tools to Mitigate Hallucinations? SIRA: Shared-Prefix Internal Reconstruction of Attribution

Lijie Wen
Lijie Wen
Citations: 39
h-index: 3
Tian Qin
Tian Qin
Citations: 95
h-index: 6
Junzhe Chen
Junzhe Chen
Citations: 29
h-index: 2
Yuqing Shi
Yuqing Shi
Citations: 7
h-index: 1
Tianshu Zhang
Tianshu Zhang
Citations: 72
h-index: 2
Qiang Ju
Qiang Ju
Citations: 72
h-index: 3

대규모 시각-언어 모델(LVLM)은 종종 언어적 선입견이 약하거나 모호한 시각적 증거를 압도할 때 환각 현상을 보입니다. 기존의 대비 디코딩 방법은 원본 이미지의 예측과 외부적으로 변경된 시각적 입력으로부터 얻은 예측을 비교하여 이 문제를 완화하지만, 이러한 참조 데이터는 모델 밖의 이상 현상을 유발하고 비용이 많이 드는 추가적인 순전파 과정을 필요로 합니다. 우리는 학습이 필요 없는 내부 대비 디코딩 프레임워크인 SIRA를 제안합니다. SIRA는 다중 모드 트랜스포머의 단계별 정보 흐름을 활용하여 동일한 LVLM 내에서 반사실적 참조 데이터를 생성합니다. SIRA는 입력에서 시각 정보를 제거하는 대신, 먼저 이미지 및 텍스트 토큰이 공유된 접두사를 통해 상호 작용하도록 하여 프롬프트 해석, 디코딩 기록, 위치 구조 및 초기 시각적 연결을 유지하는 정렬된 다중 모드 상태를 형성합니다. 그런 다음, SIRA는 나중에 트랜스포머 레이어에서 분기된 반사실적 브랜치를 생성합니다. 이 브랜치에서는 이미지 토큰 위치에 대한 어텐션을 마스킹합니다. 이 브랜치는 공유된 다중 모드 컨텍스트를 유지하지만, 세밀한 시각적 증거에 대한 추가적인 접근 권한을 잃게 되어 토큰 수준의 대비를 위한 언어적 선입견이 지배적인 내부 참조 데이터를 생성합니다. 디코딩 과정에서 SIRA는 후기 시각 정보 없이도 여전히 강력한 토큰을 억제하고, 전체 시각 경로에 의존하는 예측을 선호합니다. Qwen2.5-VL 및 LLaVA-v1.5를 사용한 POPE, CHAIR 및 AMBER 데이터셋에 대한 실험 결과, SIRA는 환각 현상을 지속적으로 줄이면서도 설명적인 커버리지를 유지하고, 2단계 대비 디코딩보다 낮은 오버헤드를 발생시키는 것으로 나타났습니다. SIRA는 학습, 외부 검증기 또는 변경된 입력이 필요 없으며, 화이트박스 추론 접근이 가능한 공개 모델 가중치를 가진 LVLM에 적용 가능합니다.

Original Abstract

Large vision-language models (LVLMs) often hallucinate when language priors dominate weak or ambiguous visual evidence. Existing contrastive decoding methods mitigate this problem by comparing predictions from the original image with those from externally perturbed visual inputs, but such references can introduce off-manifold artifacts and require costly extra forward passes. We propose SIRA, a training-free internal contrastive decoding framework that constructs a counterfactual reference inside the same LVLM by exploiting the staged information flow of multimodal transformers. Instead of removing visual information from the input, SIRA first lets image and text tokens interact through a shared prefix, forming an aligned multimodal state that preserves prompt interpretation, decoding history, positional structure, and early visual grounding. It then forks a counterfactual branch in later transformer layers, where attention to image-token positions is masked. This branch retains the shared multimodal context but lacks continued access to fine-grained visual evidence, yielding a language-prior-dominated internal reference for token-level contrast. During decoding, SIRA suppresses tokens that remain strong without late visual access and favors predictions whose advantage depends on the full visual pathway. Experiments on POPE, CHAIR, and AMBER with Qwen2.5-VL and LLaVA-v1.5 show that SIRA consistently reduces hallucinations while preserving descriptive coverage and incurring lower overhead than two-pass contrastive decoding. SIRA requires no training, external verifier, or perturbed input, and applies to open-weight LVLMs with white-box inference access.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!