지혜 없는 지식: LLM과 의도된 영향 간의 불일치 측정
Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact
LLM은 점점 더 많은 AI 벤치마크에서 뛰어난 성능을 보이지만, 이는 하위 작업에서의 유효성을 보장하지 않습니다. 본 연구에서는 선도적인 기반 모델(FM, 즉, 생성형 사전 훈련된 기본 LLM)의 성능을 초등학생의 교육 및 학습과 관련된 분포 외(OOD) 작업에서 평가합니다. 모든 FM에서, 다양한 작업에서의 모델 간 행동은 대상 작업에 대한 전문가 인간 행동과의 상관관계보다 높습니다. 이러한 LLM 전반에 걸쳐 나타나는 편향은 하위 작업의 교육 품질 측정과 일치하지 않으며, 종종 학습 결과와 extit{부정적인 상관관계}를 보입니다. 또한, 앙상블 모델(단일 모델 투표 및 벤치마크 성능에 따른 전문가 가중치)을 사용하면 학습과의 불일치가 더욱 심화되는 것을 확인했습니다. 불일치 오류의 50% 변동이 기반 모델 간에 공유된다는 사실은 이러한 작업에서 불일치의 상당 부분이 공통 사전 훈련에서 비롯된다는 것을 시사합니다. 본 연구에서는 복잡한 작업의 정렬을 안정적으로 측정하는 방법을 제시하고, 기반 모델의 교육적 응용과 모델의 한계를 이해하는 데 유용한 통찰력을 제공합니다.
LLMs increasingly excel on AI benchmarks, but doing so does not guarantee validity for downstream tasks. This study evaluates the performance of leading foundation models (FMs, i.e., generative pre-trained base LLMs) with out-of-distribution (OOD) tasks of the teaching and learning of schoolchildren. Across all FMs, inter-model behaviors on disparate tasks correlate higher than they do with expert human behaviors on target tasks. These biases shared across LLMs are poorly aligned with downstream measures of teaching quality and often \textit{negatively aligned with learning outcomes}. Further, we find multi-model ensembles, both unanimous model voting and expert-weighting by benchmark performance, further exacerbate misalignment with learning. We measure that 50\% of the variation in misalignment error is shared across foundation models, suggesting that common pretraining accounts for much of the misalignment in these tasks. We demonstrate methods for robustly measuring alignment of complex tasks and provide unique insights into both educational applications of foundation models and to understanding limitations of models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.