챗봇 아레나: 인간 선호도에 기반한 LLM 평가를 위한 오픈 플랫폼
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
거대언어모델(LLM)은 새로운 기능과 응용 분야를 개척했으나, 인간 선호도와의 정렬을 평가하는 것은 여전히 중요한 과제로 남아 있습니다. 이 문제를 해결하기 위해, 우리는 인간 선호도에 기반하여 LLM을 평가하는 오픈 플랫폼인 '챗봇 아레나(Chatbot Arena)'를 소개합니다. 우리의 방법론은 쌍별 비교 방식을 채택하고 있으며, 크라우드소싱을 통해 다양한 사용자 기반의 입력을 활용합니다. 이 플랫폼은 수개월간 운영되며 24만 건 이상의 투표를 수집했습니다. 본 논문에서는 이 플랫폼을 소개하고, 지금까지 수집된 데이터를 분석하며, 모델의 효율적이고 정확한 평가 및 순위 선정을 위해 사용 중인 검증된 통계적 방법들을 설명합니다. 우리는 크라우드소싱된 질문들이 충분히 다양하고 변별력이 있으며, 일반인 투표 결과가 전문가 평가자의 결과와 상당히 일치함을 확인했습니다. 이러한 분석들은 종합적으로 챗봇 아레나의 신뢰성에 대한 견고한 기반을 마련해 줍니다. 독보적인 가치와 개방성 덕분에, 챗봇 아레나는 주요 LLM 개발자와 기업들이 널리 인용하는 가장 많이 참조되는 LLM 리더보드 중 하나로 부상했습니다. 데모는 https://chat.lmsys.org 에서 확인하실 수 있습니다.
Large Language Models (LLMs) have unlocked new capabilities and applications; however, evaluating the alignment with human preferences still poses significant challenges. To address this issue, we introduce Chatbot Arena, an open platform for evaluating LLMs based on human preferences. Our methodology employs a pairwise comparison approach and leverages input from a diverse user base through crowdsourcing. The platform has been operational for several months, amassing over 240K votes. This paper describes the platform, analyzes the data we have collected so far, and explains the tried-and-true statistical methods we are using for efficient and accurate evaluation and ranking of models. We confirm that the crowdsourced questions are sufficiently diverse and discriminating and that the crowdsourced human votes are in good agreement with those of expert raters. These analyses collectively establish a robust foundation for the credibility of Chatbot Arena. Because of its unique value and openness, Chatbot Arena has emerged as one of the most referenced LLM leaderboards, widely cited by leading LLM developers and companies. Our demo is publicly available at \url{https://chat.lmsys.org}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.