IB-GRPO: 지표 기반 그룹 상대 정책 최적화를 통한 LLM 기반 학습 경로 추천과 교육 목표의 정렬
IB-GRPO: Aligning LLM-based Learning Path Recommendation with Educational Objectives via Indicator-Based Group Relative Policy Optimization
학습 경로 추천(LPR)은 교육학적 원리와 운영상 제약을 준수하면서 장기적인 학습 효과를 극대화하는 개인화된 학습 항목 시퀀스를 생성하는 것을 목표로 합니다. 거대 언어 모델(LLM)이 자유 형식 추천을 위한 풍부한 의미적 이해를 제공하지만, 이를 장기적 LPR에 적용하는 것은 (i) 희소하고 지연된 피드백 상황에서 근접 발달 영역(ZPD)과 같은 교육적 목표와의 불일치, (ii) 희소하고 비용이 많이 드는 전문가 데모 데이터, (iii) 학습 효과, 난이도 조절, 길이 제어, 궤적 다양성 간의 다목적 상호작용 등의 이유로 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 LLM 기반 LPR을 위한 지표 유도 정렬 접근법인 IB-GRPO(Indicator-Based Group Relative Policy Optimization)를 제안합니다. 데이터 부족을 완화하기 위해 유전 알고리즘 탐색과 교사 RL 에이전트를 통해 하이브리드 전문가 데모를 구축하고, 지도 미세 조정을 사용하여 LLM을 웜 스타트합니다. 이러한 웜 스타트를 기반으로 난이도 조절을 위한 세션 내 ZPD 정렬 점수를 설계합니다. 그 후 IB-GRPO는 $I_{ε+}$ 우세 지표를 사용하여 여러 목표에 대한 그룹 상대적 이점을 계산함으로써, 수동 스칼라화를 피하고 파레토 트레이드오프를 개선합니다. Qwen2.5-7B 백본과 KES 시뮬레이터를 사용한 ASSIST09 및 Junyi 데이터셋에 대한 실험 결과는 대표적인 RL 및 LLM 베이스라인 대비 일관된 성능 향상을 보여줍니다.
Learning Path Recommendation (LPR) aims to generate personalized sequences of learning items that maximize long-term learning effect while respecting pedagogical principles and operational constraints. Although large language models (LLMs) offer rich semantic understanding for free-form recommendation, applying them to long-horizon LPR is challenging due to (i) misalignment with pedagogical objectives such as the Zone of Proximal Development (ZPD) under sparse, delayed feedback, (ii) scarce and costly expert demonstrations, and (iii) multi-objective interactions among learning effect, difficulty scheduling, length controllability, and trajectory diversity. To address these issues, we propose IB-GRPO (Indicator-Based Group Relative Policy Optimization), an indicator-guided alignment approach for LLM-based LPR. To mitigate data scarcity, we construct hybrid expert demonstrations via Genetic Algorithm search and teacher RL agents and warm-start the LLM with supervised fine-tuning. Building on this warm-start, we design a within-session ZPD alignment score for difficulty scheduling. IB-GRPO then uses the $I_{ε+}$ dominance indicator to compute group-relative advantages over multiple objectives, avoiding manual scalarization and improving Pareto trade-offs. Experiments on ASSIST09 and Junyi using the KES simulator with a Qwen2.5-7B backbone show consistent improvements over representative RL and LLM baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.