2602.00979v1 Feb 01, 2026 cs.CR

GradingAttack: 대규모 언어 모델의 단답형 문제 채점 능력 공격

GradingAttack: Attacking Large Language Models Towards Short Answer Grading Ability

Xueyi Li
Xueyi Li
Citations: 112
h-index: 7
Zhuoneng Zhou
Zhuoneng Zhou
Citations: 1
h-index: 1
Zitao Liu
Zitao Liu
Citations: 117
h-index: 7
Yongdong Wu
Yongdong Wu
Citations: 7
h-index: 2
Weiqi Luo
Weiqi Luo
Citations: 205
h-index: 11

대규모 언어 모델(LLM)은 자동 단답형 문제 채점(ASAG) 분야에서 놀라운 잠재력을 보여주며, 교육 환경에서 학생 평가의 효율성과 확장성을 크게 향상시킵니다. 그러나 이러한 모델이 적대적 조작에 취약하다는 점은 자동 채점의 공정성과 신뢰성에 대한 중요한 우려를 불러일으킵니다. 본 논문에서는 LLM 기반 ASAG 모델의 취약점을 체계적으로 평가하는 정교한 적대 공격 프레임워크인 GradingAttack을 소개합니다. 특히, 본 연구는 일반적인 공격 방법을 ASAG의 특정 목표에 맞게 조정하여, 채점 결과를 조작하면서도 높은 은폐성을 유지하는 토큰 수준 및 프롬프트 수준 전략을 설계했습니다. 또한, 공격의 은폐성을 정량화하기 위해, 공격 성공률과 은폐성을 균형 있게 평가하는 새로운 평가 지표를 제안합니다. 여러 데이터 세트에 대한 실험 결과, 두 가지 공격 전략 모두 채점 모델을 효과적으로 오도하며, 프롬프트 수준 공격은 더 높은 성공률을 달성하고, 토큰 수준 공격은 더 뛰어난 은폐 능력을 보이는 것으로 나타났습니다. 이러한 결과는 ASAG의 공정성과 신뢰성을 보장하기 위한 강력한 방어책의 필요성을 강조합니다. 본 연구의 코드 및 데이터 세트는 https://anonymous.4open.science/r/GradingAttack 에서 제공됩니다.

Original Abstract

Large language models (LLMs) have demonstrated remarkable potential for automatic short answer grading (ASAG), significantly boosting student assessment efficiency and scalability in educational scenarios. However, their vulnerability to adversarial manipulation raises critical concerns about automatic grading fairness and reliability. In this paper, we introduce GradingAttack, a fine-grained adversarial attack framework that systematically evaluates the vulnerability of LLM based ASAG models. Specifically, we align general-purpose attack methods with the specific objectives of ASAG by designing token-level and prompt-level strategies that manipulate grading outcomes while maintaining high camouflage. Furthermore, to quantify attack camouflage, we propose a novel evaluation metric that balances attack success and camouflage. Experiments on multiple datasets demonstrate that both attack strategies effectively mislead grading models, with prompt-level attacks achieving higher success rates and token-level attacks exhibiting superior camouflage capability. Our findings underscore the need for robust defenses to ensure fairness and reliability in ASAG. Our code and datasets are available at https://anonymous.4open.science/r/GradingAttack.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!