Visual-ERM: 시각적 동등성을 위한 보상 모델링
Visual-ERM: Reward Modeling for Visual Equivalence
이미지-코드 변환(Vision-to-Code) 작업은 모델이 차트, 테이블, SVG와 같은 구조화된 시각적 입력을 실행 가능한 형태로 또는 구조화된 표현으로 재구성하는 것을 요구합니다. 최근의 대규모 시각-언어 모델(LVLM)은 지도 학습을 통해 강력한 성능을 보이지만, 보상 신호의 불일치로 인해 강화 학습은 여전히 어려운 과제입니다. 기존의 보상 방식은 텍스트 기반 규칙이나 조잡한 시각적 임베딩 유사성에 의존하며, 이는 미세한 시각적 차이를 제대로 반영하지 못하고 보상 해킹에 취약합니다. 본 논문에서는 Visual Equivalence Reward Model (Visual-ERM)을 제안합니다. Visual-ERM은 다중 모달 생성 보상 모델로서, 렌더링된 시각적 공간에서 이미지-코드 변환의 품질을 직접 평가하기 위한 미세한 수준의 해석 가능하고 작업에 독립적인 피드백을 제공합니다. 강화 학습에 통합된 Visual-ERM은 Qwen3-VL-8B-Instruct 모델의 차트-코드 변환 성능을 +8.4% 향상시키고, 테이블 및 SVG 파싱 성능에서도 평균 +2.7%, +4.1%의 일관된 성능 향상을 보입니다. 또한, Visual-ERM은 반사 및 수정 과정을 통해 테스트 시점의 확장성을 더욱 강화합니다. 또한, 구조화된 시각적 데이터에서 미세한 수준의 이미지-이미지 차이를 평가하기 위한 벤치마크인 VisualCritic-RewardBench (VC-RewardBench)를 소개합니다. VC-RewardBench에서 8B 규모의 Visual-ERM은 Qwen3-VL-235B-Instruct 모델을 압도적으로 능가하며, 선도적인 독점 모델에 근접하는 성능을 보입니다. 본 연구 결과는 작업의 특이성에 관계없이, 이미지-코드 변환 강화 학습에서 미세한 수준의 시각적 보상 지도 학습이 필수적이며 충분하다는 것을 시사합니다.
Vision-to-code tasks require models to reconstruct structured visual inputs, such as charts, tables, and SVGs, into executable or structured representations with high visual fidelity. While recent Large Vision Language Models (LVLMs) achieve strong results via supervised fine-tuning, reinforcement learning remains challenging due to misaligned reward signals. Existing rewards either rely on textual rules or coarse visual embedding similarity, both of which fail to capture fine-grained visual discrepancies and are vulnerable to reward hacking. We propose Visual Equivalence Reward Model (Visual-ERM), a multimodal generative reward model that provides fine-grained, interpretable, and task-agnostic feedback to evaluate vision-to-code quality directly in the rendered visual space. Integrated into RL, Visual-ERM improves Qwen3-VL-8B-Instruct by +8.4 on chart-to-code and yields consistent gains on table and SVG parsing (+2.7, +4.1 on average), and further strengthens test-time scaling via reflection and revision. We also introduce VisualCritic-RewardBench (VC-RewardBench), a benchmark for judging fine-grained image-to-image discrepancies on structured visual data, where Visual-ERM at 8B decisively outperforms Qwen3-VL-235B-Instruct and approaches leading closed-source models. Our results suggest that fine-grained visual reward supervision is both necessary and sufficient for vision-to-code RL, regardless of task specificity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.