CollabEval: 다중 에이전트 협력을 통한 LLM 기반 평가 시스템 성능 향상
CollabEval: Enhancing LLM-as-a-Judge via Multi-Agent Collaboration
대규모 언어 모델(LLM)은 AI 생성 콘텐츠 평가 방식을 혁신했으며, LLM을 평가자로 활용하는 패러다임이 점점 더 인기를 얻고 있습니다. 그러나 현재 단일 LLM 평가 방식은 일관성 없는 판단과 사전 훈련 데이터에 내재된 편향과 같은 중요한 문제에 직면하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 CollabEval이라는 새로운 다중 에이전트 평가 프레임워크를 제안합니다. CollabEval은 초기 평가, 다중 라운드 토론, 최종 판단의 세 단계로 구성된 협력적 평가 프로세스를 구현합니다. 기존의 경쟁적 토론이나 단일 모델 평가 방식과 달리, CollabEval은 효율성을 위해 여러 에이전트 간의 협력을 강조하며 전략적 합의 검증을 수행합니다. 광범위한 실험 결과, CollabEval은 여러 측면에서 단일 LLM 방식보다 일관되게 우수한 성능을 보이며, 개별 모델이 어려움을 겪더라도 안정적인 성능을 유지합니다. 이 프레임워크는 다양한 평가 기준에 대한 포괄적인 지원을 제공하며, 협력적인 설계 방식을 통해 효율성을 보장합니다.
Large Language Models (LLMs) have revolutionized AI-generated content evaluation, with the LLM-as-a-Judge paradigm becoming increasingly popular. However, current single-LLM evaluation approaches face significant challenges, including inconsistent judgments and inherent biases from pre-training data. To address these limitations, we propose CollabEval, a novel multi-agent evaluation framework that implements a three-phase Collaborative Evaluation process: initial evaluation, multi-round discussion, and final judgment. Unlike existing approaches that rely on competitive debate or single-model evaluation, CollabEval emphasizes collaboration among multiple agents with strategic consensus checking for efficiency. Our extensive experiments demonstrate that CollabEval consistently outperforms single-LLM approaches across multiple dimensions while maintaining robust performance even when individual models struggle. The framework provides comprehensive support for various evaluation criteria while ensuring efficiency through its collaborative design.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.