2601.21360v1 Jan 29, 2026 cs.CL

규정 준수 역설: 자동화된 학술 코드 평가에서의 의미-지시 분리

The Compliance Paradox: Semantic-Instruction Decoupling in Automated Academic Code Evaluation

Yash Sinha
Yash Sinha
Citations: 94
h-index: 5
Murari Mandal
Murari Mandal
Citations: 79
h-index: 5
Devanshu Sahoo
Devanshu Sahoo
Citations: 6
h-index: 2
Manish Prasad
Manish Prasad
Citations: 55
h-index: 3
Vasudev Majhi
Vasudev Majhi
Citations: 4
h-index: 1
Arjun Neekhra
Arjun Neekhra
Citations: 0
h-index: 0
Vinay Chamola
Vinay Chamola
Citations: 114
h-index: 4
Dhruv Kumar
Dhruv Kumar
Citations: 26
h-index: 2

대규모 언어 모델(LLM)이 교육 평가에 통합되는 것은, 지시 사항 준수 능력이 객관적인 평가로 직접적으로 연결된다는 검증되지 않은 가정에 근거합니다. 본 연구에서는 이러한 가정이 근본적으로 결함이 있음을 보여줍니다. 모델은 코드 품질을 평가하는 대신, 제출된 코드의 논리에서 벗어나 숨겨진 지시 사항을 충족하는 경향이 있으며, 이를 우리는 '규정 준수 역설'이라고 부릅니다. 이는 극단적인 도움을 제공하도록 튜닝된 모델이 적대적인 조작에 취약하다는 체계적인 취약점입니다. 이러한 문제를 밝히기 위해, 우리는 의미 보존 적대적 코드 주입 프레임워크(SPACI)와 추상 구문 트리 인식 의미 주입 프로토콜(AST-ASIP)을 소개합니다. 이러한 방법은 구문-의미 격차를 활용하여, 추상 구문 트리의 구문적으로 불활성인 영역(트리비아 노드)에 적대적인 지시 사항을 포함시킵니다. 파이썬, C, C++, 자바 언어로 작성된 25,000개의 제출물에 대한 9개의 최첨단 모델의 대규모 평가를 통해, DeepSeek-V3과 같은 고용량 오픈 웨이트 모델에서 코드 정확성보다 숨겨진 서식 제약 조건을 우선시하여 95% 이상의 높은 오류율을 확인했습니다. 우리는 새로운 삼자 평가 프레임워크를 사용하여 분리 확률, 점수 차이 및 교육적 심각성을 측정하여, 기능적으로 오류가 있는 코드에 대한 '허위 인증'이 광범위하게 발생하고 있음을 보여줍니다. 본 연구 결과는 현재의 정렬 패러다임이 자동 채점 시스템에 '트로이 목마'와 같은 취약점을 만들 수 있음을 시사하며, 모델이 증거를 우선시하도록 조건부로 만들어야 하는 도메인별 평가적 견고성으로의 전환이 필요합니다. 본 연구에서는 완전한 데이터셋과 주입 프레임워크를 공개하여, 이 주제에 대한 추가 연구를 지원합니다.

Original Abstract

The rapid integration of Large Language Models (LLMs) into educational assessment rests on the unverified assumption that instruction following capability translates directly to objective adjudication. We demonstrate that this assumption is fundamentally flawed. Instead of evaluating code quality, models frequently decouple from the submission's logic to satisfy hidden directives, a systemic vulnerability we term the Compliance Paradox, where models fine-tuned for extreme helpfulness are vulnerable to adversarial manipulation. To expose this, we introduce the Semantic-Preserving Adversarial Code Injection (SPACI) Framework and the Abstract Syntax Tree-Aware Semantic Injection Protocol (AST-ASIP). These methods exploit the Syntax-Semantics Gap by embedding adversarial directives into syntactically inert regions (trivia nodes) of the Abstract Syntax Tree. Through a large-scale evaluation of 9 SOTA models across 25,000 submissions in Python, C, C++, and Java, we reveal catastrophic failure rates (>95%) in high-capacity open-weights models like DeepSeek-V3, which systematically prioritize hidden formatting constraints over code correctness. We quantify this failure using our novel tripartite framework measuring Decoupling Probability, Score Divergence, and Pedagogical Severity to demonstrate the widespread "False Certification" of functionally broken code. Our findings suggest that current alignment paradigms create a "Trojan" vulnerability in automated grading, necessitating a shift from standard RLHF toward domain-specific Adjudicative Robustness, where models are conditioned to prioritize evidence over instruction compliance. We release our complete dataset and injection framework to facilitate further research on the topic.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!