GenArena: 시각 생성 작업에서 인간의 의도에 부합하는 평가를 어떻게 달성할 수 있을까요?
GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks?
시각 생성 모델의 빠른 발전은 기존 평가 방식의 한계를 드러내고 있으며, 이에 따라 Vision-Language 모델을 대체 평가자로 활용하는 것이 필요하게 되었습니다. 본 연구에서는 다양한 시각 생성 작업에 걸쳐 널리 사용되는 절대적인 pointwise 점수 방식의 신뢰성을 체계적으로 조사했습니다. 분석 결과, 이 방식은 확률적 불일치와 인간의 인지적 판단과의 불일치로 인해 한계점을 가지고 있음이 밝혀졌습니다. 이러한 한계를 극복하기 위해, 본 연구에서는 GenArena라는 통합 평가 프레임워크를 제안합니다. GenArena는 pairwise 비교 방식을 활용하여 안정적이고 인간의 의도에 부합하는 평가를 보장합니다. 중요한 점은, pairwise 방식을 채택하는 것만으로도 일반적인 오픈 소스 모델이 최상위 수준의 독점 모델보다 뛰어난 성능을 발휘할 수 있다는 혁신적인 결과를 얻었다는 것입니다. 또한, 본 연구 방법은 평가 정확도를 20% 이상 향상시키고, 권위 있는 LMArena 랭킹과의 Spearman 상관 계수를 0.86으로 달성하여, pointwise 방식의 0.36이라는 상관 계수를 크게 능가합니다. GenArena를 기반으로, 최첨단 시각 생성 모델을 다양한 작업에 대해 벤치마킹하여, 시각 생성 분야의 커뮤니티에 엄격하고 자동화된 평가 기준을 제공합니다.
The rapid advancement of visual generation models has outpaced traditional evaluation approaches, necessitating the adoption of Vision-Language Models as surrogate judges. In this work, we systematically investigate the reliability of the prevailing absolute pointwise scoring standard, across a wide spectrum of visual generation tasks. Our analysis reveals that this paradigm is limited due to stochastic inconsistency and poor alignment with human perception. To resolve these limitations, we introduce GenArena, a unified evaluation framework that leverages a pairwise comparison paradigm to ensure stable and human-aligned evaluation. Crucially, our experiments uncover a transformative finding that simply adopting this pairwise protocol enables off-the-shelf open-source models to outperform top-tier proprietary models. Notably, our method boosts evaluation accuracy by over 20% and achieves a Spearman correlation of 0.86 with the authoritative LMArena leaderboard, drastically surpassing the 0.36 correlation of pointwise methods. Based on GenArena, we benchmark state-of-the-art visual generation models across diverse tasks, providing the community with a rigorous and automated evaluation standard for visual generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.