중요한 것을 학습하는 방법: 해석 가능한 시각-언어 보상 모델링을 위한 동적 차원 선택 및 집계
Learning What Matters: Dynamic Dimension Selection and Aggregation for Interpretable Vision-Language Reward Modeling
시각-언어 보상 모델링은 생성적 접근 방식은 해석 가능하지만 느리고, 판별적 접근 방식은 효율적이지만 '블랙 박스'처럼 작동한다는 딜레마에 직면합니다. 이러한 격차를 해소하기 위해, 우리는 평가를 세분화된, 해석 가능한 차원으로 동적으로 분해하는 프레임워크인 VL-MDR (Vision-Language Multi-Dimensional Reward)을 제안합니다. VL-MDR은 단일 스칼라 값을 출력하는 대신, 시각 정보를 활용하는 게이팅 메커니즘을 사용하여 관련 차원을 식별하고 각 특정 입력에 대해 이를 적응적으로 가중치 부여합니다 (예: 환각, 추론). 이를 지원하기 위해, 우리는 21개의 세분화된 차원에 걸쳐 주석이 달린 321,000개의 시각-언어 선호도 쌍 데이터셋을 구축했습니다. 광범위한 실험 결과, VL-MDR은 VL-RewardBench와 같은 벤치마크에서 기존의 오픈 소스 보상 모델보다 일관되게 뛰어난 성능을 보였습니다. 또한, VL-MDR이 생성한 선호도 쌍이 시각적 환각을 완화하고 신뢰성을 향상시키는 DPO 정렬을 효과적으로 지원하며, VLM 정렬을 위한 확장 가능한 솔루션을 제공한다는 것을 보여줍니다.
Vision-language reward modeling faces a dilemma: generative approaches are interpretable but slow, while discriminative ones are efficient but act as opaque "black boxes." To bridge this gap, we propose VL-MDR (Vision-Language Multi-Dimensional Reward), a framework that dynamically decomposes evaluation into granular, interpretable dimensions. Instead of outputting a monolithic scalar, VL-MDR employs a visual-aware gating mechanism to identify relevant dimensions and adaptively weight them (e.g., Hallucination, Reasoning) for each specific input. To support this, we curate a dataset of 321k vision-language preference pairs annotated across 21 fine-grained dimensions. Extensive experiments show that VL-MDR consistently outperforms existing open-source reward models on benchmarks like VL-RewardBench. Furthermore, we show that VL-MDR-constructed preference pairs effectively enable DPO alignment to mitigate visual hallucinations and improve reliability, providing a scalable solution for VLM alignment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.