누가 "최고"를 정의하는가? LLM 순위표의 상호작용적이고 사용자 정의 가능한 평가를 향하여
Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards
LLM 순위표는 모델을 비교하고 배포 결정을 안내하는 데 널리 사용됩니다. 그러나 순위표의 순위는 벤치마크 설계자가 설정한 평가 기준에 의해 결정되며, 이는 실제 사용자 및 조직의 다양한 목표와 제약을 반영하지 못하는 경우가 많습니다. 단일의 집계 점수는 모델이 다양한 프롬프트 유형과 조합에 대해 어떻게 작동하는지에 대한 정보를 가립니다. 본 연구에서는 LMArena(구 Chatbot Arena) 벤치마크에 사용된 데이터셋을 심층적으로 분석하고, 상호작용형 시각화 인터페이스를 설계하여 이러한 평가 문제를 조사합니다. 분석 결과, 데이터셋이 특정 주제에 편향되어 있으며, 모델 순위가 프롬프트 유형에 따라 달라지고, 선호도 기반 판단이 의도된 범위를 벗어나 사용되고 있음을 확인했습니다. 이러한 분석을 바탕으로, 사용자가 프롬프트 유형을 선택하고 가중치를 부여하여 자체 평가 기준을 정의하고, 그에 따라 순위가 어떻게 변하는지 탐색할 수 있는 시각화 인터페이스를 소개합니다. 질적 연구 결과, 이러한 상호작용적인 접근 방식은 투명성을 향상시키고, 보다 맥락에 맞는 모델 평가를 지원하며, LLM 순위표를 설계하고 사용하는 대안적인 방법을 제시합니다.
LLM leaderboards are widely used to compare models and guide deployment decisions. However, leaderboard rankings are shaped by evaluation priorities set by benchmark designers, rather than by the diverse goals and constraints of actual users and organizations. A single aggregate score often obscures how models behave across different prompt types and compositions. In this work, we conduct an in-depth analysis of the dataset used in the LMArena (formerly Chatbot Arena) benchmark and investigate this evaluation challenge by designing an interactive visualization interface as a design probe. Our analysis reveals that the dataset is heavily skewed toward certain topics, that model rankings vary across prompt slices, and that preference-based judgments are used in ways that blur their intended scope. Building on this analysis, we introduce a visualization interface that allows users to define their own evaluation priorities by selecting and weighting prompt slices and to explore how rankings change accordingly. A qualitative study suggests that this interactive approach improves transparency and supports more context-specific model evaluation, pointing toward alternative ways to design and use LLM leaderboards.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.