BoRP: 부트스트랩 회귀 기반 탐색을 통한 확장 가능하고 인간 친화적인 LLM 평가
BoRP: Bootstrapped Regression Probing for Scalable and Human-Aligned LLM Evaluation
대화형 AI의 반복적인 개발을 위해서는 사용자 만족도에 대한 정확한 평가가 매우 중요합니다. 그러나 개방형 어시스턴트의 경우, 기존의 A/B 테스트는 신뢰할 수 있는 지표를 제공하지 못합니다. 명시적인 피드백은 부족하고, 암묵적인 지표는 모호하기 때문입니다. 이러한 격차를 해소하기 위해, 우리는 고정밀 만족도 평가를 위한 확장 가능한 프레임워크인 BoRP (Bootstrapped Regression Probing)를 소개합니다. BoRP는 생성적 접근 방식과 달리, LLM의 잠재 공간의 기하학적 특성을 활용합니다. BoRP는 편향 지수 기반의 부트스트랩 메커니즘을 사용하여 척도 생성 과정을 자동화하고, Partial Least Squares (PLS)를 사용하여 숨겨진 상태를 연속적인 점수로 매핑합니다. 산업 데이터 세트에 대한 실험 결과, BoRP (Qwen3-8B/14B)는 인간 판단과 일관성이 높으며, 생성적 기준 모델 (Qwen3-Max 포함)보다 훨씬 우수한 성능을 보입니다. 또한, BoRP는 추론 비용을 크게 절감하여, CUPED를 통해 대규모 모니터링 및 매우 정밀한 A/B 테스트를 가능하게 합니다.
Accurate evaluation of user satisfaction is critical for iterative development of conversational AI. However, for open-ended assistants, traditional A/B testing lacks reliable metrics: explicit feedback is sparse, while implicit metrics are ambiguous. To bridge this gap, we introduce BoRP (Bootstrapped Regression Probing), a scalable framework for high-fidelity satisfaction evaluation. Unlike generative approaches, BoRP leverages the geometric properties of LLM latent space. It employs a polarization-index-based bootstrapping mechanism to automate rubric generation and utilizes Partial Least Squares (PLS) to map hidden states to continuous scores. Experiments on industrial datasets show that BoRP (Qwen3-8B/14B) significantly outperforms generative baselines (even Qwen3-Max) in alignment with human judgments. Furthermore, BoRP reduces inference costs by orders of magnitude, enabling full-scale monitoring and highly sensitive A/B testing via CUPED.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.