AdaRubric: LLM 에이전트 평가를 위한 작업 적응형 평가 기준
AdaRubric: Task-Adaptive Rubrics for LLM Agent Evaluation
LLM 기반 평가 시스템은 고정된 평가 기준만으로는 에이전트의 작업을 정확하게 평가하지 못합니다. 왜냐하면, 코드 디버깅에는 정확성과 오류 처리, 웹 탐색에는 목표 일치성과 작업 효율성이 중요하기 때문입니다. 본 논문에서는 ADARUBRIC을 제안합니다. ADARUBRIC은 작업 설명을 기반으로 작업별 평가 기준을 실시간으로 생성하고, 신뢰도 가중치를 적용한 차원별 피드백을 통해 단계별로 점수를 부여하며, DimensionAwareFilter라는 새로운 필터링 방법을 사용하여 고득점 차원이 다른 차원의 실패를 가리는 것을 방지합니다 (이는 실패를 막기 위한 필수 조건으로 증명됨). WebArena 및 ToolBench 데이터셋에서 ADARUBRIC은 기존의 가장 우수한 정적 기준 모델보다 0.16만큼 높은 Pearson 상관 계수(0.79)를 기록하며, Krippendorff's $α$ 값이 0.83으로 높은 신뢰도를 보입니다. ADARUBRIC으로 생성된 선호도 쌍을 사용하여 학습된 DPO 에이전트는 세 가지 벤치마크에서 Prometheus 모델보다 작업 성공률이 6.8~8.5%p 더 높습니다. 이러한 성능 향상은 SWE-bench 코드 수정 작업에서도 4.9%p의 성능 향상을 가져왔으며, PPO 학습 시 5,000 단계에서 6.6%p 더 빠른 수렴을 달성했습니다. 이러한 모든 결과는 별도의 평가 기준 설계 없이 얻어진 결과입니다. 코드: https://github.com/alphadl/AdaRubrics.
LLM-as-Judge evaluation fails agent tasks because a fixed rubric cannot capture what matters for this task: code debugging demands Correctness and Error Handling; web navigation demands Goal Alignment and Action Efficiency. We present ADARUBRIC, which closes this gap by generating task-specific evaluation rubrics on the fly from task descriptions, scoring trajectories step-by-step with confidence-weighted per-dimension feedback, and filtering preference pairs with the novel DimensionAwareFilter - a provably necessary condition for preventing high-scoring dimensions from masking dimension-level failures. On WebArena and ToolBench, ADARUBRIC achieves Pearson r=0.79 human correlation (+0.16 over the best static baseline) with deployment-grade reliability (Krippendorff's $α$=0.83). DPO agents trained on ADARUBRIC preference pairs gain +6.8 to +8.5 pp task success over Prometheus across three benchmarks; gains transfer to SWE-bench code repair (+4.9 pp) and accelerate PPO convergence by +6.6 pp at 5K steps - both without any rubric engineering. Code: https://github.com/alphadl/AdaRubrics.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.