WARBENCH: 군사 의사 결정 분야의 LLM 성능 평가를 위한 종합적인 벤치마크
WARBENCH: A Comprehensive Benchmark for Evaluating LLMs in Military Decision-Making
대규모 언어 모델(LLM)은 안전이 중요한 군사 응용 분야에 점점 더 많이 활용될 가능성이 있습니다. 그러나 현재 벤치마크는 실제 전술 시나리오에서 모델의 능력을 체계적으로 과대평가하는 구조적인 한계를 가지고 있습니다. 기존 프레임워크는 일반적으로 국제 인도법(IHL)에 따른 엄격한 법적 제약을 고려하지 않으며, 엣지 컴퓨팅의 한계를 간과하고, '전쟁의 안개' 상황에 대한 안정성 테스트가 부족하고, 명시적인 추론 능력을 충분히 평가하지 못합니다. 이러한 취약점을 해결하기 위해, 우리는 WARBENCH라는 종합적인 평가 프레임워크를 제시합니다. 이 프레임워크는 기본적인 전술 기준을 설정하고, 네 가지의 다양한 스트레스 테스트 차원을 포함합니다. 136개의 고품질 역사적 시나리오를 사용하여 9개의 선도적인 모델에 대한 대규모 실증 평가를 수행한 결과, 심각한 구조적 결함을 발견했습니다. 첫째, 기본적인 전술적 추론은 복잡한 지형과 전력 불균형 상황에서 체계적으로 실패합니다. 둘째, 최첨단 비공개 모델은 기능적으로는 준수하는 것으로 나타났지만, 엣지 환경에 최적화된 소형 모델은 심각한 운영 위험을 초래하며, 법률 위반율이 70%에 육박하는 것으로 나타났습니다. 또한, 모델은 4비트 양자화 및 체계적인 정보 손실로 인해 성능이 급격히 저하됩니다. 반대로, 명시적인 추론 메커니즘은 의도치 않은 위반을 방지하는 데 매우 효과적인 구조적 안전장치 역할을 합니다. 궁극적으로, 이러한 결과는 현재 모델이 고위험 전술 환경에서 자율적으로 사용될 준비가 전혀 되어 있지 않음을 보여줍니다.
Large Language Models are increasingly being considered for deployment in safety-critical military applications. However, current benchmarks suffer from structural blindspots that systematically overestimate model capabilities in real-world tactical scenarios. Existing frameworks typically ignore strict legal constraints based on International Humanitarian Law (IHL), omit edge computing limitations, lack robustness testing for fog of war, and inadequately evaluate explicit reasoning. To address these vulnerabilities, we present WARBENCH, a comprehensive evaluation framework establishing a foundational tactical baseline alongside four distinct stress testing dimensions. Through a large scale empirical evaluation of nine leading models on 136 high-fidelity historical scenarios, we reveal severe structural flaws. First, baseline tactical reasoning systematically collapses under complex terrain and high force asymmetry. Second, while state of the art closed source models maintain functional compliance, edge-optimized small models expose extreme operational risks with legal violation rates approaching 70 percent. Furthermore, models experience catastrophic performance degradation under 4-bit quantization and systematic information loss. Conversely, explicit reasoning mechanisms serve as highly effective structural safeguards against inadvertent violations. Ultimately, these findings demonstrate that current models remain fundamentally unready for autonomous deployment in high stakes tactical environments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.