멀티모달 추론 보상 모델을 위한 엔트로피 유도 데이터 효율적 학습
Entropy-Guided Data-Efficient Training for Multimodal Reasoning Reward Models
멀티모달 보상 모델은 멀티모달 대규모 언어 모델을 인간의 선호도에 정렬하는 데 있어 매우 중요하다. 최근 연구들은 이러한 모델에 추론 능력을 통합하여 유망한 결과를 달성했다. 그러나 이러한 모델의 학습은 두 가지 중요한 난관에 직면해 있다. (1) 모델 성능을 저하시키는 선호도 데이터셋의 내재적 노이즈와 (2) 샘플 난이도의 차이를 무시하는 기존 학습 방법의 비효율성이다. 본 논문에서는 응답 엔트로피와 정확도 사이의 강한 상관관계를 확인하였으며, 이는 엔트로피가 주석 노이즈와 샘플 난이도에 대한 신뢰할 수 있는 비지도 대리 지표 역할을 할 수 있음을 나타낸다. 이러한 통찰을 바탕으로, 우리는 멀티모달 추론 보상 모델을 위한 새로운 엔트로피 유도 학습(Entropy-Guided Training, EGT) 접근법을 제안한다. 이는 (1) 신뢰할 수 없는 샘플의 영향을 완화하기 위한 엔트로피 유도 데이터 큐레이션과 (2) 더 복잡한 예제를 점진적으로 도입하는 엔트로피 유도 학습 전략의 두 가지 전략을 결합한다. 3가지 벤치마크에 걸친 광범위한 실험 결과, EGT로 학습된 모델이 최신 멀티모달 보상 모델보다 일관되게 우수한 성능을 보이는 것으로 나타났다.
Multimodal reward models are crucial for aligning multimodal large language models with human preferences. Recent works have incorporated reasoning capabilities into these models, achieving promising results. However, training these models suffers from two critical challenges: (1) the inherent noise in preference datasets, which degrades model performance, and (2) the inefficiency of conventional training methods, which ignore the differences in sample difficulty. In this paper, we identify a strong correlation between response entropy and accuracy, indicating that entropy can serve as a reliable and unsupervised proxy for annotation noise and sample difficulty. Based on this insight, we propose a novel Entropy-Guided Training (EGT) approach for multimodal reasoning reward models, which combines two strategies: (1) entropy-guided data curation to mitigate the impact of unreliable samples, and (2) an entropy-guided training strategy that progressively introduces more complex examples. Extensive experiments across three benchmarks show that the EGT-trained model consistently outperforms state-of-the-art multimodal reward models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.