2601.20253v1 Jan 28, 2026 cs.CL

블룸의 분류 체계를 기반으로 한 도메인 지침을 활용한 자동 벤치마크 생성

Automated Benchmark Generation from Domain Guidelines Informed by Bloom's Taxonomy

Nitesh V. Chawla
Nitesh V. Chawla
Citations: 308
h-index: 8
Si Chen
Si Chen
Citations: 1
h-index: 1
L. Khiem
L. Khiem
Citations: 26
h-index: 2
Annalisa Szymanski
Annalisa Szymanski
Citations: 1
h-index: 1
Ronald A. Metoyer
Ronald A. Metoyer
Citations: 12
h-index: 2
T. Hua
T. Hua
Citations: 12
h-index: 2

개방형 질문 응답(QA)은 모델이 단순히 사실을 암기하는 것을 넘어 맥락적 추론 능력을 평가합니다. 특히 실무 중심 영역에서는 지식이 절차적이며 전문적인 판단에 기반하기 때문에, 기존의 대부분 LLM 벤치마크는 인력이 제작한 시험 데이터에 의존하는데, 이러한 데이터는 종종 해당 환경에서 구할 수 없습니다. 본 연구에서는 전문가가 작성한 지침을 기반으로 하며 블룸의 분류 체계에 따라 설계된 자동 벤치마크 생성 프레임워크를 소개합니다. 이 프레임워크는 전문가의 실무 지식을 암묵적인 위반 기반 시나리오로 변환하고, 이를 4가지 인지 수준에 걸친 자동 채점 가능성이 있는 객관식 문제(MCQ) 및 다중 턴 대화 형태로 확장하여, 결정론적이고 재현 가능하며 확장 가능한 평가를 가능하게 합니다. 교육, 영양, 간호 등 세 가지 실무 영역에 적용한 결과, 모델과 인간의 추론 방식 간의 차이를 발견했습니다. LLM은 때때로 상위 수준의 추론(분석)에서 상대적으로 더 나은 성능을 보이지만, 하위 수준의 항목(기억)에서는 더 자주 실패하는 경향이 있습니다. 본 연구는 이러한 직관에 어긋나는 모델의 행동을 드러내고, 실제 환경에서의 맥락적 추론 능력을 평가할 수 있는 대규모, 심리 측정학적으로 설계된 벤치마크를 제공합니다.

Original Abstract

Open-ended question answering (QA) evaluates a model's ability to perform contextualized reasoning beyond factual recall. This challenge is especially acute in practice-based domains, where knowledge is procedural and grounded in professional judgment, while most existing LLM benchmarks depend on pre-existing human exam datasets that are often unavailable in such settings. We introduce a framework for automated benchmark generation from expert-authored guidelines informed by Bloom's Taxonomy. It converts expert practices into implicit violation-based scenarios and expands them into auto-graded multiple-choice questions (MCQs) and multi-turn dialogues across four cognitive levels, enabling deterministic, reproducible, and scalable evaluation. Applied to three applied domains: teaching, dietetics, and caregiving, we find differences between model and human-like reasoning: LLMs sometimes perform relatively better on higher-order reasoning (Analyze) but fail more frequently on lower-level items (Remember). We produce large-scale, psychometrically informed benchmarks that surface these non-intuitive model behaviors and enable evaluation of contextualized reasoning in real-world settings.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!