VisualDeltas: 시각 품질 변화를 통한 선호도 학습
VisualDeltas: Learning Preferences from Visual Quality Perturbations
본 논문에서는 VisualDeltas라는 경량의 선호도 학습 프레임워크를 제시합니다. 이 프레임워크는 다중 모드 데이터에서 발생하는 시각 품질 변화를 활용하여 지도 정보를 추출합니다. VisualDeltas는 이미지 품질이 시각적 인식 및 추론에 미치는 체계적인 영향을 활용하여, 인간 주석이나 외부 지도 없이도 유용한 선호도 신호를 유도합니다. 이 프레임워크는 지도 없는 학습과 지도 기반 학습 모두를 지원하며, 사용 가능한 지도 정보가 있을 경우 유연하게 활용할 수 있습니다. 다양한 다중 모드 벤치마크 및 모델 크기에서, VisualDeltas는 재 rejection-sampling fine-tuning 방식을 능가하는 성능을 보이며, 일반화 성능을 향상시키고, 다양한 시각적 저하 현상에 자연스럽게 적용될 수 있습니다.
We present VisualDeltas, a lightweight preference-learning framework that extracts supervision from visual quality variations in multimodal data. By leveraging the systematic impact of image quality on visual perception and reasoning, VisualDeltas induces informative preference signals without relying on human annotations or external teachers. The framework supports both label-free and label-based regimes, enabling flexible use of available supervision when present. Across diverse multimodal benchmarks and model scales, VisualDeltas consistently outperforms rejection-sampling fine-tuning and improves generalization, and extends naturally to a range of visual degradations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.