실리콘 관료주의와 AI 시험 중심 교육: LLM 벤치마크에서 오염 민감도 및 점수 신뢰성
Silicon Bureaucracy and AI Test-Oriented Education: Contamination Sensitivity and Score Confidence in LLM Benchmarks
최근 공개 벤치마크는 대규모 언어 모델(LLM)의 순위 결정, 선택 및 배포 방식을 점점 더 규정하고 있습니다. 본 연구에서는 이러한 벤치마크 중심 체계를 '실리콘 관료주의'와 'AI 시험 중심 교육'으로 규정하고, 벤치마크 점수가 실제 일반화 능력을 직접적으로 반영한다는 불안정한 가정에 기반하고 있다고 주장합니다. 그러나 실제로는 이러한 점수는 시험 지향적인 능력과 원칙적인 능력을 혼동시킬 수 있으며, 특히 현대 훈련 파이프라인에서 오염 및 의미적 누수를 배제하기 어려운 경우 더욱 그렇습니다. 따라서 본 연구에서는 LLM 벤치마크에서 오염 민감도 및 점수 신뢰성을 분석하기 위한 감사 프레임워크를 제안합니다. 라우터-워커 설정을 사용하여, 벤치마크 문제를 체계적으로 삭제, 재작성 및 변형하여 노이즈가 포함된 조건과 노이즈가 없는 제어 조건을 비교했습니다. 진정으로 깨끗한 벤치마크의 경우, 노이즈 조건은 일관되게 제어 기준을 능가해서는 안 됩니다. 그러나 여러 모델에서 노이즈 조건 하에서 제어 기준보다 높은 성능을 보이는 현상이 광범위하게 나타났으며, 이는 벤치마크 관련 단서가 재구성되어 오염과 관련된 기억을 활성화할 수 있음을 시사합니다. 이러한 결과는 유사한 벤치마크 점수가 상당히 다른 수준의 신뢰도를 가질 수 있음을 나타냅니다. 본 연구는 벤치마크를 완전히 거부하는 대신, 벤치마크 기반 평가에 오염 민감도 및 점수 신뢰성에 대한 명시적인 감사를 추가해야 한다고 주장합니다.
Public benchmarks increasingly govern how large language models (LLMs) are ranked, selected, and deployed. We frame this benchmark-centered regime as Silicon Bureaucracy and AI Test-Oriented Education, and argue that it rests on a fragile assumption: that benchmark scores directly reflect genuine generalization. In practice, however, such scores may conflate exam-oriented competence with principled capability, especially when contamination and semantic leakage are difficult to exclude from modern training pipelines. We therefore propose an audit framework for analyzing contamination sensitivity and score confidence in LLM benchmarks. Using a router-worker setup, we compare a clean-control condition with noisy conditions in which benchmark problems are systematically deleted, rewritten, and perturbed before being passed downstream. For a genuinely clean benchmark, noisy conditions should not consistently outperform the clean-control baseline. Yet across multiple models, we find widespread but heterogeneous above-baseline gains under noisy conditions, indicating that benchmark-related cues may be reassembled and can reactivate contamination-related memory. These results suggest that similar benchmark scores may carry substantially different levels of confidence. Rather than rejecting benchmarks altogether, we argue that benchmark-based evaluation should be supplemented with explicit audits of contamination sensitivity and score confidence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.