이미지 복원 과정에서 발생하는 시각적 왜곡이 언어 생성에 미치는 영향
How Do Inpainting Artifacts Propagate to Language?
본 연구는 확산 모델 기반의 이미지 복원 과정에서 발생하는 시각적 왜곡이 비전-언어 모델의 언어 생성에 미치는 영향을 분석합니다. 마스크 처리된 이미지 영역을 복원하고, 이를 캡셔닝 모델에 입력하여 원래 이미지와 복원된 이미지로부터 생성된 캡션을 비교하는 두 단계의 진단 방법을 사용합니다. 여러 데이터셋을 대상으로, 복원 정확도와 캡션 품질 간의 관계를 분석했습니다. 분석 결과, 픽셀 수준 및 인지적 복원 지표와 어휘 및 의미 캡셔닝 성능 간에 일관된 상관관계가 나타났습니다. 중간 시각적 표현과 어텐션 패턴에 대한 추가 분석 결과, 이미지 복원 과정에서 발생하는 왜곡은 모델의 동작에 체계적이고 계층 의존적인 변화를 초래합니다. 종합적으로, 본 연구는 시각적 복원 품질이 다중 모드 시스템에서 언어 생성에 미치는 영향을 분석하기 위한 실용적인 진단 프레임워크를 제공합니다.
We study how visual artifacts introduced by diffusion-based inpainting affect language generation in vision-language models. We use a two-stage diagnostic setup in which masked image regions are reconstructed and then provided to captioning models, enabling controlled comparisons between captions generated from original and reconstructed inputs. Across multiple datasets, we analyze the relationship between reconstruction fidelity and downstream caption quality. We observe consistent associations between pixel-level and perceptual reconstruction metrics and both lexical and semantic captioning performance. Additional analysis of intermediate visual representations and attention patterns shows that inpainting artifacts lead to systematic, layer-dependent changes in model behavior. Together, these results provide a practical diagnostic framework for examining how visual reconstruction quality influences language generation in multimodal systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.