신뢰할 수 있는 LLM 평가를 향하여: 적응형 벤치마킹에서의 승자 저주 현상 수정
Towards Reliable LLM Evaluation: Correcting the Winner's Curse in Adaptive Benchmarking
적응형 프롬프트 및 프로그램 검색은 LLM 평가를 선택에 민감하게 만듭니다. 벤치마크 항목이 튜닝 과정에서 재사용될 경우, 관찰되는 '승자'의 점수는 전체 튜닝 후 배포 절차의 실제 성능을 정확하게 반영하지 못할 수 있습니다. 본 연구에서는 명시적인 튜닝 예산 하에서 이 절차 수준의 목표에 대한 추론을 연구합니다. 우리는 SIREN이라는, 선택 편향을 고려한 반복적 분할 보고 프로토콜을 제안합니다. SIREN은 검색 후 생성된 후보 목록을 고정하고, 분할 단위 선택과 별도의 보유 데이터 평가를 수행하며, 불확실성 정량화를 위해 항목 수준의 가우시안 곱셈 부트스트랩을 사용합니다. 고정된 후보 목록 체제와 안정적인 선택 과정을 통해, 제안하는 추정량은 1차 항목 수준 표현을 가지며, 부트스트랩은 제한된 예산 그리드에서 유효한 동시 추론을 제공합니다. 이를 통해 절차 성능 곡선에 대한 신뢰 구간을 생성하고, 미리 정의된 동일 예산 및 교차 예산 비교를 수행할 수 있습니다. 통제된 시뮬레이션 및 MMLU-Pro 튜닝 실험 결과, 승자 기반 보고는 낙관적인 결과를 초래할 수 있으며, 배포 결론을 변경할 수 있는 반면, SIREN은 유한 표본 보고 목표에 가까운 결과를 보여줍니다.
Adaptive prompt and program search makes LLM evaluation selection-sensitive. Once benchmark items are reused inside tuning, the observed winner's score need not estimate the fresh-data performance of the full tune-then-deploy procedure. We study inference for this procedure-level target under explicit tuning budgets. We propose SIREN, a selection-aware repeated-split reporting protocol that freezes the post-search shortlist, separates splitwise selection from held-out evaluation, and uses an item-level Gaussian multiplier bootstrap for uncertainty quantification. In a fixed-shortlist regime with smooth stabilized selection, the estimator admits a first-order item-level representation, and the bootstrap yields valid simultaneous inference on a finite budget grid. This supports confidence intervals for procedure-performance curves and pre-specified equal-budget and cross-budget comparisons. Controlled simulations and MMLU-Pro tuning experiments show that winner-based reporting can be optimistic and can change deployment conclusions, while SIREN remains close to the finite-sample reporting target.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.