2601.08311v1 Jan 13, 2026 cs.CV

검색 기반 증강 생성(RAG)을 활용한 LMM의 이미지 품질 평가 능력 향상

Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation

Jun Zhao
Jun Zhao
Citations: 337
h-index: 6
Xiongkuo Min
Xiongkuo Min
Citations: 11,423
h-index: 50
Huiyu Duan
Huiyu Duan
Citations: 1,959
h-index: 24
Kang Fu
Kang Fu
Citations: 414
h-index: 7
Zicheng Zhang
Zicheng Zhang
Citations: 4,035
h-index: 32
Yucheng Zhu
Yucheng Zhu
Citations: 1,708
h-index: 22
Jia Wang
Jia Wang
Citations: 86
h-index: 6
Guangtao Zhai
Guangtao Zhai
Citations: 2,866
h-index: 27

최근 대규모 멀티모달 모델(LMM)은 저수준 시각 인식 작업, 특히 이미지 품질 평가(IQA)에서 뛰어난 성능을 보여주며, 강력한 제로샷 능력을 입증했습니다. 그러나 최첨단 성능을 달성하기 위해서는 종종 계산 비용이 많이 드는 파인튜닝 방법이 필요하며, 이는 출력에서 품질 관련 토큰의 분포를 이미지 품질 수준에 맞추는 것을 목표로 합니다. 최근 LMM에 대한 훈련 없이 작동하는 연구에서 영감을 받아, 본 논문에서는 LMM의 IQA 능력을 향상시키는 새로운 훈련-비용 없는 프레임워크인 IQARAG를 소개합니다. IQARAG는 검색 기반 증강 생성(RAG)을 활용하여 입력 이미지와 의미적으로 유사하지만 품질이 다른 참조 이미지를 검색하고, 해당 이미지에 대한 평균 주관 점수(MOS)를 함께 가져옵니다. 검색된 이미지와 입력 이미지는 특정 프롬프트에 통합됩니다. 검색된 이미지는 LMM에게 IQA 작업에 대한 시각적 참조점을 제공합니다. IQARAG는 검색 특징 추출, 이미지 검색, 통합 및 품질 점수 생성의 세 가지 주요 단계로 구성됩니다. KADID, KonIQ, LIVE Challenge 및 SPAQ를 포함한 다양한 IQA 데이터 세트에 대한 광범위한 실험 결과, 제안된 IQARAG는 LMM의 IQA 성능을 효과적으로 향상시키며, 품질 평가를 위한 파인튜닝의 비용 효율적인 대안을 제공하는 것으로 나타났습니다.

Original Abstract

Large Multimodal Models (LMMs) have recently shown remarkable promise in low-level visual perception tasks, particularly in Image Quality Assessment (IQA), demonstrating strong zero-shot capability. However, achieving state-of-the-art performance often requires computationally expensive fine-tuning methods, which aim to align the distribution of quality-related token in output with image quality levels. Inspired by recent training-free works for LMM, we introduce IQARAG, a novel, training-free framework that enhances LMMs' IQA ability. IQARAG leverages Retrieval-Augmented Generation (RAG) to retrieve some semantically similar but quality-variant reference images with corresponding Mean Opinion Scores (MOSs) for input image. These retrieved images and input image are integrated into a specific prompt. Retrieved images provide the LMM with a visual perception anchor for IQA task. IQARAG contains three key phases: Retrieval Feature Extraction, Image Retrieval, and Integration & Quality Score Generation. Extensive experiments across multiple diverse IQA datasets, including KADID, KonIQ, LIVE Challenge, and SPAQ, demonstrate that the proposed IQARAG effectively boosts the IQA performance of LMMs, offering a resource-efficient alternative to fine-tuning for quality assessment.

0 Citations
0 Influential
25 Altmetric
125.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!