2605.00814v1 May 01, 2026 cs.CV

지속적인 시각 기억: LVLM의 심층 생성 과정에서 시각적 인지 유지

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Xiaoye Qu
Xiaoye Qu
Citations: 1,394
h-index: 19
Daizong Liu
Daizong Liu
Citations: 319
h-index: 9
T. Zhu
T. Zhu
Citations: 65
h-index: 6
Yafu Li
Yafu Li
Citations: 370
h-index: 8
Siyuan Huang
Siyuan Huang
Citations: 95
h-index: 5
Zefeng He
Zefeng He
Citations: 83
h-index: 5
Muxin Fu
Muxin Fu
Citations: 129
h-index: 3
Weibo Zheng
Weibo Zheng
Citations: 22
h-index: 3
Yu Cheng
Yu Cheng
Citations: 316
h-index: 10

자기 회귀 대규모 시각-언어 모델(LVLM)은 다양한 다중 모드 작업에서 뛰어난 성능을 보이지만, "시각 신호 희석" 현상을 겪습니다. 이는 텍스트 기록의 축적으로 인해 어텐션 파티션 함수가 확장되어, 생성된 시퀀스 길이에 반비례하여 시각적 어텐션이 감소하는 현상입니다. 이를 해결하기 위해, 우리는 지속적인 시각 기억(PVM)이라는 가볍고 학습 가능한 모듈을 제안합니다. PVM은 LVLM 내의 피드포워드 네트워크(FFN)와 병렬로 구성되어 있으며, 거리에 관계없이 시각적 임베딩을 직접 제공하여 정확한 시각적 인지를 가능하게 하는 검색 경로를 구축함으로써, 심층 생성 과정에서 발생하는 신호 억제를 구조적으로 완화합니다. Qwen3-VL 모델에 대한 광범위한 실험 결과, PVM은 미미한 파라미터 오버헤드로 상당한 성능 향상을 가져다주며, 특히 지속적인 시각적 인지가 요구되는 복잡한 추론 작업에서 4B 및 8B 규모 모두에서 일관된 평균 정확도 향상을 보여줍니다. 또한, 심층적인 분석을 통해 PVM이 길이로 인한 신호 감소를 방지하고 내부 예측 수렴을 가속화하는 것을 확인했습니다.

Original Abstract

While autoregressive Large Vision-Language Models (LVLMs) demonstrate remarkable proficiency in multimodal tasks, they face a "Visual Signal Dilution" phenomenon, where the accumulation of textual history expands the attention partition function, causing visual attention to decay inversely with generated sequence length. To counteract this, we propose Persistent Visual Memory (PVM), a lightweight learnable module designed to ensure sustained, on-demand visual perception. Integrated as a parallel branch alongside the Feed-Forward Network (FFN) in LVLMs, PVM establishes a distance-agnostic retrieval pathway that directly provides visual embeddings for precise visual perception, thereby structurally mitigating the signal suppression inherent to deep generation. Extensive experiments on Qwen3-VL models demonstrate that PVM brings notable improvements with negligible parameter overhead, delivering consistent average accuracy gains across both 4B and 8B scales, particularly in complex reasoning tasks that demand persistent visual perception. Furthermore, in-depth analysis reveals that PVM can resist length-induced signal decay and accelerate internal prediction convergence.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!