인지적으로 다양한 객관식 문제 생성: 대규모 언어 모델을 활용한 하이브리드 다중 에이전트 프레임워크
Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models
최근 대규모 언어 모델(LLM)의 발전으로 자동 객관식 문제(MCQ) 생성은 점점 더 실현 가능해지고 있습니다. 그러나, 특정 인지적 요구 사항을 충족하는 문제를 안정적으로 생성하는 것은 여전히 어려운 과제입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 텍스트 기반, 추론, 그리고 핵심 아이디어 이해 능력을 체계적으로 평가하는 다양한 인지적 특성을 가진 객관식 문제를 생성하는 하이브리드 다중 에이전트 프레임워크인 ReQUESTA를 소개합니다. ReQUESTA는 객관식 문제 작성을 전문적인 하위 작업으로 분해하고, 계획, 제어된 생성, 반복적인 평가, 그리고 후처리 작업을 지원하기 위해 LLM 기반 에이전트와 규칙 기반 구성 요소를 결합합니다. 본 연구에서는 학술적인 설명 텍스트를 사용한 대규모 독해 이해 연구를 통해 ReQUESTA가 생성한 객관식 문제와 단일 패스 GPT-5 제로샷 모델이 생성한 문제를 비교 평가했습니다. 학습자의 응답에 대한 심리 측정 분석을 통해 문제의 난이도와 변별력을 평가하고, 전문가 평가단을 통해 문제의 품질을 다양한 측면에서 평가했습니다. 결과는 ReQUESTA가 생성한 문제들이 일관성 있게 더 높은 난이도를 가지며, 변별력이 더 높고, 전반적인 독해 이해 능력과 더 밀접하게 관련되어 있음을 보여주었습니다. 또한, 전문가 평가는 ReQUESTA가 생성한 문제들이 핵심 개념과의 일관성이 더 높고, 특히 추론 문제의 경우, 헷갈리는 선택지의 언어적 일관성과 의미적 타당성이 우수함을 나타냈습니다. 이러한 결과는 하이브리드 에이전트 기반 시스템이 LLM 기반 생성의 신뢰성과 제어 가능성을 체계적으로 향상시킬 수 있음을 보여주며, 워크플로우 설계가 단일 프롬프트 기반 생성 이상의 구조화된 결과물 생성에 있어 중요한 요소임을 강조합니다.
Recent advances in large language models (LLMs) have made automated multiple-choice question (MCQ) generation increasingly feasible; however, reliably producing items that satisfy controlled cognitive demands remains a challenge. To address this gap, we introduce ReQUESTA, a hybrid, multi-agent framework for generating cognitively diverse MCQs that systematically target text-based, inferential, and main idea comprehension. ReQUESTA decomposes MCQ authoring into specialized subtasks and coordinates LLM-powered agents with rule-based components to support planning, controlled generation, iterative evaluation, and post-processing. We evaluated the framework in a large-scale reading comprehension study using academic expository texts, comparing ReQUESTA-generated MCQs with those produced by a single-pass GPT-5 zero-shot baseline. Psychometric analyses of learner responses assessed item difficulty and discrimination, while expert raters evaluated question quality across multiple dimensions, including topic relevance and distractor quality. Results showed that ReQUESTA-generated items were consistently more challenging, more discriminative, and more strongly aligned with overall reading comprehension performance. Expert evaluations further indicated stronger alignment with central concepts and superior distractor linguistic consistency and semantic plausibility, particularly for inferential questions. These findings demonstrate that hybrid, agentic orchestration can systematically improve the reliability and controllability of LLM-based generation, highlighting workflow design as a key lever for structured artifact generation beyond single-pass prompting.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.