역량 기반 벤치마크 및 MCTS 기반 데이터 생성 방식을 통한 다중 모드 심판 모델 발전
Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation
다중 모드 대규모 언어 모델(MLLM)을 심판으로 활용하여 정확하고 일관된 평가를 수행하는 것은 다양한 분야에서 새로운 패러다임으로 자리 잡고 있습니다. 따라서 MLLM 기반 심판 시스템의 역량과 신뢰성을 평가하는 것은 신뢰할 수 있는 평가를 보장하는 데 필수적입니다. 기존의 심판 벤치마크는 샘플을 작업 유형별로 분류하지만, 신뢰할 수 있는 평가를 위해 필요한 기본적인 판단 역량을 제대로 반영하지 못합니다. 본 연구에서는 MLLM의 판단 능력을 종합적으로 평가하기 위해 10가지 역량 기반으로 설계된 벤치마크인 M-JudgeBench를 소개합니다. M-JudgeBench는 평가를 쌍대 비교, 길이 편향 회피, 과정 오류 탐지 작업으로 분해하여, 총 10가지의 세분화된 하위 작업들을 포함합니다. 이러한 설계는 추론 스타일, 응답 길이, 그리고 모델 간의 차이를 고려하여 모델의 신뢰성을 진단할 수 있도록 합니다. 체계적인 평가는 기존의 MLLM 기반 심판 시스템의 체계적인 약점을 드러냅니다. 이러한 문제를 해결하기 위해, 우리는 다양한 정확도와 길이를 가진 쌍대 추론 경로를 생성하는 데이터 구축 프레임워크인 Judge-MCTS를 제안합니다. Judge-MCTS를 사용하여 MCTS 기반의 데이터셋을 구축하고, 이를 활용하여 강력한 심판 모델인 M-Judger를 학습했습니다. 광범위한 실험 결과, M-Judger는 기존의 심판 벤치마크뿐만 아니라 M-JudgeBench에서도 우수한 성능을 보였습니다. 전반적으로, 본 연구는 M-JudgeBench와 Judge-MCTS 프레임워크를 통해 MLLM 기반 심판 평가를 위한 보다 체계적인 기반을 확립하고, 심판 모델 평가 및 역량 기반 심판 학습에 대한 미래 연구의 길을 열었습니다.
Using Multimodal Large Language Models (MLLMs) as judges to achieve precise and consistent evaluations has gradually become an emerging paradigm across various domains. Evaluating the capability and reliability of MLLM-as-a-judge systems is therefore essential for ensuring trustworthy assessment. Existing judge benchmarks categorize samples by task types but fail to capture the fundamental judgment capabilities required for reliable evaluation. In this work, we introduce M-JudgeBench, a ten-dimensional capability-oriented benchmark designed to comprehensively assess the judgment abilities of MLLMs. Our benchmark decomposes evaluation into pairwise Chain-of-Thought (CoT) comparison, length bias avoidance, and process error detection tasks, jointly covering ten fine-grained subtasks. This design enables diagnosis of model reliability across reasoning styles, response lengths, and cross-model variations. Systematic evaluation uncovers the systematic weaknesses in existing MLLM-as-a-judge systems. To address this issue, we further propose Judge-MCTS, a data construction framework generating pairwise reasoning trajectories with various correctness and length. Using Judge-MCTS, we construct an MCTS-augmented dataset and train M-Judger, a series of strong judge models. Extensive experiments demonstrate the superiority of M-Judger on existing judge benchmarks as well as M-JudgeBench. Overall, our work establishes a more principled foundation for evaluating MLLM-as-a-judge through M-JudgeBench and Judge-MCTS framework, paving the way for future research on judge model evaluation and capability-driven judge training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.