CreditAudit: LLM 평가 및 선택을 위한 2차원 접근 방식
CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection
공개 벤치마크에서의 순위 점수는 꾸준히 상승하고 수렴하는 경향을 보이며, 현재의 최첨단 언어 모델들은 미미한 차이로 구분되는 경우가 많습니다. 그러나 이러한 점수는 종종 사용자의 실제 사용 경험과 일치하지 않는데, 이는 시스템 프롬프트, 출력 프로토콜 및 상호 작용 방식이 반복적인 개선 과정을 거치면서 변화하기 때문입니다. 또한, 에이전트 기반의 다단계 파이프라인에서 작은 프로토콜 변경만으로도 비례적으로 큰 실패를 초래할 수 있으며, 이는 실무자들이 어떤 모델을 배포해야 할지 판단하는 데 어려움을 겪게 만듭니다. 본 연구에서는 CreditAudit이라는 배포 중심의 모델 평가 프레임워크를 제안합니다. CreditAudit은 여러 벤치마크에서 의미적으로 일관되고 적대적이지 않은 시스템 프롬프트 템플릿들을 사용하여 모델을 평가하며, 평균 성능을 시나리오별 평균으로 보고, 시나리오에 따른 변동성을 안정성 위험 신호로 제공합니다. 또한, 모델 간의 상위 분위수를 사용하여 변동성을 AAA부터 BBB까지 해석 가능한 신용 등급으로 매핑하며, 템플릿 난이도 변화를 완화하기 위한 진단 기능을 제공합니다. GPQA, TruthfulQA 및 MMLU Pro에 대한 통제된 실험 결과, 유사한 평균 성능을 보이는 모델이라도 상당히 다른 변동성을 보일 수 있으며, 안정성 위험은 에이전트 기반 시스템이나 높은 실패 비용이 발생하는 환경에서 모델 우선순위 결정에 영향을 미칠 수 있습니다. CreditAudit은 2차원 및 등급 기반의 언어를 제공하여 환경에 특화된 모델 선택을 지원하며, 체계적인 테스트 및 모니터링 노력을 가능하게 하여, 실제 사용을 위한 보다 객관적이고 신뢰할 수 있는 모델 평가를 지원합니다.
Leaderboard scores on public benchmarks have been steadily rising and converging, with many frontier language models now separated by only marginal differences. However, these scores often fail to match users' day to day experience, because system prompts, output protocols, and interaction modes evolve under routine iteration, and in agentic multi step pipelines small protocol shifts can trigger disproportionate failures, leaving practitioners uncertain about which model to deploy. We propose CreditAudit, a deployment oriented credit audit framework that evaluates models under a family of semantically aligned and non adversarial system prompt templates across multiple benchmarks, reporting mean ability as average performance across scenarios and scenario induced fluctuation sigma as a stability risk signal, and further mapping volatility into interpretable credit grades from AAA to BBB via cross model quantiles with diagnostics that mitigate template difficulty drift. Controlled experiments on GPQA, TruthfulQA, and MMLU Pro show that models with similar mean ability can exhibit substantially different fluctuation, and stability risk can overturn prioritization decisions in agentic or high failure cost regimes. By providing a 2D and grade based language for regime specific selection, CreditAudit supports tiered deployment and more disciplined allocation of testing and monitoring effort, enabling more objective and trustworthy model evaluation for real world use.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.