2602.06486v1 Feb 06, 2026 cs.AI

JADE: 개방형 전문 과업을 위한 전문가 기반 동적 평가

JADE: Expert-Grounded Dynamic Evaluation for Open-Ended Professional Tasks

Lei Wei
Lei Wei
Citations: 2
h-index: 1
Lan Lin
Lan Lin
Citations: 2
h-index: 1
Jiayao Liu
Jiayao Liu
Citations: 17
h-index: 3
Tianyu Yang
Tianyu Yang
Citations: 114
h-index: 4
Li Cai
Li Cai
Citations: 4
h-index: 1
Yuan Xu
Yuan Xu
Citations: 22
h-index: 3
Sicong Xie
Sicong Xie
Citations: 101
h-index: 6
Guannan Zhang
Guannan Zhang
Citations: 75
h-index: 5

개방형 전문 과업에서 에이전트 AI를 평가하는 것은 엄격성과 유연성 사이의 근본적인 딜레마에 직면해 있습니다. 정적 루브릭은 엄격하고 재현 가능한 평가를 제공하지만 다양하고 타당한 응답 전략을 수용하지 못하는 반면, '심판으로서의 LLM(LLM-as-a-judge)' 접근 방식은 개별 응답에는 적응하지만 불안정성과 편향 문제를 안고 있습니다. 인간 전문가는 도메인에 기반한 원칙과 동적인 주장(claim) 수준의 평가를 결합하여 이러한 딜레마를 해결합니다. 이러한 과정에서 영감을 받아, 우리는 2계층 평가 프레임워크인 JADE를 제안합니다. 계층 1은 전문가 지식을 사전 정의된 평가 기술 세트로 인코딩하여 안정적인 평가 기준을 제공합니다. 계층 2는 보고서별, 주장 수준의 평가를 수행하여 다양한 추론 전략을 유연하게 평가하며, '증거 의존성 게이팅(evidence-dependency gating)'을 통해 반박된 주장에 기반한 결론을 무효화합니다. BizBench에서의 실험 결과, JADE는 평가 안정성을 향상시키고 기존의 포괄적 LLM 기반 평가자가 놓친 중요한 에이전트 실패 유형을 드러내는 것으로 나타났습니다. 또한, 전문가가 작성한 루브릭과 높은 일치도를 보이고 의료 도메인 벤치마크로도 효과적으로 전이됨을 입증하여, 다양한 전문 도메인에서 JADE의 유효성을 확인했습니다. 코드는 https://github.com/smiling-world/JADE 에서 공개되어 있습니다.

Original Abstract

Evaluating agentic AI on open-ended professional tasks faces a fundamental dilemma between rigor and flexibility. Static rubrics provide rigorous, reproducible assessment but fail to accommodate diverse valid response strategies, while LLM-as-a-judge approaches adapt to individual responses yet suffer from instability and bias. Human experts address this dilemma by combining domain-grounded principles with dynamic, claim-level assessment. Inspired by this process, we propose JADE, a two-layer evaluation framework. Layer 1 encodes expert knowledge as a predefined set of evaluation skills, providing stable evaluation criteria. Layer 2 performs report-specific, claim-level evaluation to flexibly assess diverse reasoning strategies, with evidence-dependency gating to invalidate conclusions built on refuted claims. Experiments on BizBench show that JADE improves evaluation stability and reveals critical agent failure modes missed by holistic LLM-based evaluators. We further demonstrate strong alignment with expert-authored rubrics and effective transfer to a medical-domain benchmark, validating JADE across professional domains. Our code is publicly available at https://github.com/smiling-world/JADE.

0 Citations
0 Influential
23 Altmetric
115.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!