2604.05445v1 Apr 07, 2026 cs.CL

중요한 것을 학습하는 방법: 해석 가능한 시각-언어 보상 모델링을 위한 동적 차원 선택 및 집계

Learning What Matters: Dynamic Dimension Selection and Aggregation for Interpretable Vision-Language Reward Modeling

Hongxia Xu
Hongxia Xu
Citations: 169
h-index: 6
Jintai Chen
Jintai Chen
Citations: 2,541
h-index: 24
Qiyuan Chen
Qiyuan Chen
Citations: 58
h-index: 4
Hongsen Huang
Hongsen Huang
Citations: 7
h-index: 2
Jiahe Chen
Jiahe Chen
Citations: 11
h-index: 3
Qian Shao
Qian Shao
Citations: 20
h-index: 3
Renjie Hua
Renjie Hua
Citations: 7
h-index: 2
Chuan-Ying Ren
Chuan-Ying Ren
Citations: 2
h-index: 1
Jian Wu
Jian Wu
Citations: 196
h-index: 5

시각-언어 보상 모델링은 생성적 접근 방식은 해석 가능하지만 느리고, 판별적 접근 방식은 효율적이지만 '블랙 박스'처럼 작동한다는 딜레마에 직면합니다. 이러한 격차를 해소하기 위해, 우리는 평가를 세분화된, 해석 가능한 차원으로 동적으로 분해하는 프레임워크인 VL-MDR (Vision-Language Multi-Dimensional Reward)을 제안합니다. VL-MDR은 단일 스칼라 값을 출력하는 대신, 시각 정보를 활용하는 게이팅 메커니즘을 사용하여 관련 차원을 식별하고 각 특정 입력에 대해 이를 적응적으로 가중치 부여합니다 (예: 환각, 추론). 이를 지원하기 위해, 우리는 21개의 세분화된 차원에 걸쳐 주석이 달린 321,000개의 시각-언어 선호도 쌍 데이터셋을 구축했습니다. 광범위한 실험 결과, VL-MDR은 VL-RewardBench와 같은 벤치마크에서 기존의 오픈 소스 보상 모델보다 일관되게 뛰어난 성능을 보였습니다. 또한, VL-MDR이 생성한 선호도 쌍이 시각적 환각을 완화하고 신뢰성을 향상시키는 DPO 정렬을 효과적으로 지원하며, VLM 정렬을 위한 확장 가능한 솔루션을 제공한다는 것을 보여줍니다.

Original Abstract

Vision-language reward modeling faces a dilemma: generative approaches are interpretable but slow, while discriminative ones are efficient but act as opaque "black boxes." To bridge this gap, we propose VL-MDR (Vision-Language Multi-Dimensional Reward), a framework that dynamically decomposes evaluation into granular, interpretable dimensions. Instead of outputting a monolithic scalar, VL-MDR employs a visual-aware gating mechanism to identify relevant dimensions and adaptively weight them (e.g., Hallucination, Reasoning) for each specific input. To support this, we curate a dataset of 321k vision-language preference pairs annotated across 21 fine-grained dimensions. Extensive experiments show that VL-MDR consistently outperforms existing open-source reward models on benchmarks like VL-RewardBench. Furthermore, we show that VL-MDR-constructed preference pairs effectively enable DPO alignment to mitigate visual hallucinations and improve reliability, providing a scalable solution for VLM alignment.

0 Citations
0 Influential
12 Altmetric
60.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!