LLM 튜터의 답변 유출 방어 능력을 적대적 학생 공격에 대해 평가
Evaluating Answer Leakage Robustness of LLM Tutors against Adversarial Student Attacks
대규모 언어 모델(LLM)은 교육 분야에서 점점 더 많이 사용되고 있지만, 기본적으로 제공되는 유용성은 종종 교육 원칙과 충돌합니다. 기존 연구에서는 답변 유출(완전한 해결책 공개, 가이드 제공이 아닌 것)을 통해 교육적 품질을 평가하지만, 일반적으로 학습 의도가 있는 사용자를 대상으로 하며, 학생의 오용에 따른 튜터의 견고성은 거의 탐구되지 않았습니다. 본 연구에서는 학생들이 적대적으로 행동하여 튜터로부터 정답을 얻으려고 하는 시나리오를 연구합니다. 다양한 모델 패밀리, 교육적으로 정렬된 모델, 그리고 멀티 에이전트 설계를 포함한 광범위한 LLM 기반 튜터 모델을 다양한 적대적 학생 공격 하에서 평가합니다. 교육 환경에 적합한 여섯 가지 유형의 적대적 및 설득 기술을 적용하여 튜터가 최종 답변을 공개할 가능성을 측정합니다. 다양한 유형의 컨텍스트 기반 적대적 학생 에이전트를 사용하여 답변 유출 방어 능력을 평가한 결과, 이러한 에이전트들이 효과적인 공격을 수행하는 데 어려움을 겪는 경우가 많습니다. 따라서, LLM 기반 튜터를 탈옥시키도록 미세 조정된 적대적 학생 에이전트를 도입하며, 이를 튜터의 견고성을 평가하는 표준 벤치마크의 핵심으로 제안합니다. 마지막으로, 답변 유출을 줄이고 적대적 시나리오에서 LLM 기반 튜터의 견고성을 강화하는 간단하면서도 효과적인 방어 전략을 제시합니다.
Large Language Models (LLMs) are increasingly used in education, yet their default helpfulness often conflicts with pedagogical principles. Prior work evaluates pedagogical quality via answer leakage-the disclosure of complete solutions instead of scaffolding-but typically assumes well-intentioned learners, leaving tutor robustness under student misuse largely unexplored. In this paper, we study scenarios where students behave adversarially and aim to obtain the correct answer from the tutor. We evaluate a broad set of LLM-based tutor models, including different model families, pedagogically aligned models, and a multi-agent design, under a range of adversarial student attacks. We adapt six groups of adversarial and persuasive techniques to the educational setting and use them to probe how likely a tutor is to reveal the final answer. We evaluate answer leakage robustness using different types of in-context adversarial student agents, finding that they often fail to carry out effective attacks. We therefore introduce an adversarial student agent that we fine-tune to jailbreak LLM-based tutors, which we propose as the core of a standardized benchmark for evaluating tutor robustness. Finally, we present simple but effective defense strategies that reduce answer leakage and strengthen the robustness of LLM-based tutors in adversarial scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.