2602.23580v1 Feb 27, 2026 cs.CL

BRIDGE: 영어 학습자를 위한 자동 채점 시스템에서 데이터 증강을 통한 편향 증폭 완화

BRIDGE the Gap: Mitigating Bias Amplification in Automated Scoring of English Language Learners via Inter-group Data Augmentation

Xuansheng Wu
Xuansheng Wu
Citations: 807
h-index: 13
Yun Wang
Yun Wang
Citations: 13
h-index: 3
Jingyuan Huang
Jingyuan Huang
Citations: 57
h-index: 2
Lei Liu
Lei Liu
Citations: 22
h-index: 2
Xiaoming Zhai
Xiaoming Zhai
Citations: 1,082
h-index: 16
Ninghao Liu
Ninghao Liu
Citations: 631
h-index: 12

교육 평가 분야에서 자동 채점 시스템은 점점 더 딥러닝과 대규모 언어 모델(LLM)에 의존하고 있습니다. 그러나 이러한 시스템은 편향 증폭이라는 심각한 위험에 직면해 있으며, 이는 학생 그룹 간의 예측 차이가 학습 데이터에서 관찰되는 것보다 더 커지는 현상입니다. 특히, 영어를 모국어로 사용하지 않는 학습자(ELL)와 같은 소외된 그룹에게 이러한 문제가 심각한데, 모델이 기존 데이터의 불평등을 학습하고 증폭시킬 수 있기 때문입니다. 우리는 이 문제가 대표성 편향과 밀접하게 관련되어 있음을 확인했습니다. 즉, 소수 그룹(높은 점수를 받는 ELL)의 샘플 부족은 경험적 위험 최소화를 통해 학습된 모델이 다수 그룹(ELL이 아닌 학생)의 언어 패턴을 선호하게 만듭니다. 그 결과, 모델은 동일한 내용 지식을 갖추고 있지만 다른 언어 패턴을 사용하는 ELL 학생의 점수를 과소평가하는 경향이 있으며, 이는 자동 채점 결과의 공정성을 저해합니다. 이러한 문제를 완화하기 위해, 우리는 저자원 평가 환경을 위해 설계된 편향 감소를 위한 데이터 증강 프레임워크인 BRIDGE를 제안합니다. BRIDGE는 제한된 소수 그룹 샘플에 의존하는 대신, 풍부한 고득점 비-ELL 샘플에서 획득한 내용(즉, 채점 기준에 부합하는 지식과 증거)을 실제 ELL 언어 패턴에

Original Abstract

In the field of educational assessment, automated scoring systems increasingly rely on deep learning and large language models (LLMs). However, these systems face significant risks of bias amplification, where model prediction gaps between student groups become larger than those observed in training data. This issue is especially severe for underrepresented groups such as English Language Learners (ELLs), as models may inherit and further magnify existing disparities in the data. We identify that this issue is closely tied to representation bias: the scarcity of minority (high-scoring ELL) samples makes models trained with empirical risk minimization favor majority (non-ELL) linguistic patterns. Consequently, models tend to under-predict ELL students who even demonstrate comparable domain knowledge but use different linguistic patterns, thereby undermining the fairness of automated scoring outcomes. To mitigate this, we propose BRIDGE, a Bias-Reducing Inter-group Data GEneration framework designed for low-resource assessment settings. Instead of relying on the limited minority samples, BRIDGE synthesizes high-scoring ELL samples by "pasting" construct-relevant (i.e., rubric-aligned knowledge and evidence) content from abundant high-scoring non-ELL samples into authentic ELL linguistic patterns. We further introduce a discriminator model to ensure the quality of synthetic samples. Experiments on California Science Test (CAST) datasets demonstrate that BRIDGE effectively reduces prediction bias for high-scoring ELL students while maintaining overall scoring performance. Notably, our method achieves fairness gains comparable to using additional real human data, offering a cost-effective solution for ensuring equitable scoring in large-scale assessments.

0 Citations
0 Influential
8 Altmetric
40.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!