ReflectCAP: 반사적 메모리를 활용한 상세 이미지 설명 생성
ReflectCAP: Detailed Image Captioning with Reflective Memory
상세 이미지 설명 생성은 사실 기반 정보와 세부적인 내용 모두를 요구하지만, 기존 방법들은 이 두 가지를 동시에 달성하는 데 어려움을 겪어왔습니다. 우리는 이러한 문제점을 해결하기 위해 반사적 메모리 기반의 설명 생성 모델(ReflectCAP)을 제안합니다. ReflectCAP은 다중 에이전트 파이프라인을 통해, 대상의 대규모 시각-언어 모델(LVLM)이 지속적으로 환각하는 내용과 체계적으로 간과하는 내용을 분석하고, 이러한 패턴을 재사용 가능한 지침인 '구조화된 반사 메모(Structured Reflection Notes)'로 추출합니다. 추론 시, 이러한 메모는 설명 생성 모델을 두 가지 측면에서 안내합니다. 즉, 무엇을 피해야 하는지, 그리고 무엇에 집중해야 하는지를 알려주어, 사실성과 내용의 충실성을 동시에 향상시키는 상세한 설명을 생성합니다. GPT-4.1 패밀리, Qwen 시리즈, InternVL 변종을 포함한 8개의 LVLM에 이 방법을 적용한 결과, ReflectCAP은 사실성과 내용의 충실성 간의 균형을 최적화하여 CapArena-Auto에서 강력한 참조 모델과 비교하여 상당한 성능 향상을 보였습니다. 또한, ReflectCAP은 모델 크기 확장이나 기존의 다중 에이전트 파이프라인보다 계산 비용 대비 설명 품질 측면에서 더 유리하며, 기존 방식에 비해 21~36% 더 큰 오버헤드를 발생시킵니다. 따라서, ReflectCAP은 실제 환경에서의 비용 및 지연 시간 제약 조건 하에서도 고품질의 상세 이미지 설명을 가능하게 합니다.
Detailed image captioning demands both factual grounding and fine-grained coverage, yet existing methods have struggled to achieve them simultaneously. We address this tension with Reflective Note-Guided Captioning (ReflectCAP), where a multi-agent pipeline analyzes what the target large vision-language model (LVLM) consistently hallucinates and what it systematically overlooks, distilling these patterns into reusable guidelines called Structured Reflection Notes. At inference time, these notes steer the captioning model along both axes -- what to avoid and what to attend to -- yielding detailed captions that jointly improve factuality and coverage. Applying this method to 8 LVLMs spanning the GPT-4.1 family, Qwen series, and InternVL variants, ReflectCAP reaches the Pareto frontier of the trade-off between factuality and coverage, and delivers substantial gains on CapArena-Auto, where generated captions are judged head-to-head against strong reference models. Moreover, ReflectCAP offers a more favorable trade-off between caption quality and compute cost than model scaling or existing multi-agent pipelines, which incur 21--36\% greater overhead. This makes high-quality detailed captioning viable under real-world cost and latency constraints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.