2601.10406v1 Jan 15, 2026 cs.AI

ErrEval: 명시적 진단을 통한 질문 생성의 오류 인식 평가

ErrEval: Error-Aware Evaluation for Question Generation through Explicit Diagnostics

Weiping Fu
Weiping Fu
Citations: 24
h-index: 1
Bifan Wei
Bifan Wei
Citations: 402
h-index: 11
Yushun Zhang
Yushun Zhang
Citations: 7
h-index: 1
Jian Zhang
Jian Zhang
Citations: 14
h-index: 2
Jiaxin Wang
Jiaxin Wang
Citations: 72
h-index: 6
Bo Li
Bo Li
Citations: 24
h-index: 2
Yu He
Yu He
Citations: 5
h-index: 1
Lingling Zhang
Lingling Zhang
Citations: 1,063
h-index: 19
Jun Liu
Jun Liu
Citations: 41
h-index: 3
Jing Hao
Jing Hao
Citations: 3
h-index: 1

자동 질문 생성(QG)은 종종 사실적 환각이나 정답 불일치와 같은 치명적인 결함이 있는 결과물을 만들어냅니다. 그러나 LLM 기반 평가 모델을 포함한 기존 평가 방법들은 주로 명시적인 오류 모델링 없이 블랙박스 및 포괄적 패러다임을 채택하고 있어, 이러한 결함을 간과하고 질문의 품질을 과대평가하는 결과를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 명시적 오류 진단을 통해 QG 평가를 강화하는 유연한 오류 인식 평가 프레임워크인 ErrEval을 제안합니다. 구체적으로 ErrEval은 평가를 오류 진단 후 근거 있는 점수 산정으로 이어지는 2단계 프로세스로 재구성합니다. 첫 번째 단계에서는 경량화된 플러그 앤 플레이 방식의 '오류 식별기(Error Identifier)'가 구조적, 언어적, 내용적 측면에 걸친 일반적인 오류들을 탐지하고 분류합니다. 이러한 진단 신호는 이후 LLM 평가자가 더 세밀하고 근거 있는 판단을 내리도록 유도하는 명시적 증거로 통합됩니다. 세 가지 벤치마크에 대한 광범위한 실험은 명시적 진단을 통합하는 것이 인간의 판단과의 일치도를 향상시킨다는 것을 보여주며 ErrEval의 유효성을 입증합니다. 추가 분석을 통해 ErrEval이 낮은 품질의 질문에 대한 과대평가를 효과적으로 완화한다는 것을 확인했습니다.

Original Abstract

Automatic Question Generation (QG) often produces outputs with critical defects, such as factual hallucinations and answer mismatches. However, existing evaluation methods, including LLM-based evaluators, mainly adopt a black-box and holistic paradigm without explicit error modeling, leading to the neglect of such defects and overestimation of question quality. To address this issue, we propose ErrEval, a flexible and Error-aware Evaluation framework that enhances QG evaluation through explicit error diagnostics. Specifically, ErrEval reformulates evaluation as a two-stage process of error diagnosis followed by informed scoring. At the first stage, a lightweight plug-and-play Error Identifier detects and categorizes common errors across structural, linguistic, and content-related aspects. These diagnostic signals are then incorporated as explicit evidence to guide LLM evaluators toward more fine-grained and grounded judgments. Extensive experiments on three benchmarks demonstrate the effectiveness of ErrEval, showing that incorporating explicit diagnostics improves alignment with human judgments. Further analyses confirm that ErrEval effectively mitigates the overestimation of low-quality questions.

1 Citations
0 Influential
9.5 Altmetric
48.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!