2605.04530v1 May 06, 2026 cs.NI

SADE: 증상 기반 진단 심화 시스템 - LLM 기반 네트워크 문제 해결

SADE: Symptom-Aware Diagnostic Escalation for LLM-Based Network Troubleshooting

Suranga Seneviratne
Suranga Seneviratne
Citations: 29
h-index: 3
Kuan-Hao Tseng
Kuan-Hao Tseng
Citations: 12
h-index: 1
Niruth Bogahawatta
Niruth Bogahawatta
Citations: 1
h-index: 1
Yasod Ginige
Yasod Ginige
Citations: 46
h-index: 4
Kosta Dekic
Kosta Dekic
Citations: 0
h-index: 0
Arunan Sivanathan
Arunan Sivanathan
Citations: 1,676
h-index: 12

대규모 언어 모델(LLM) 에이전트가 네트워크 문제 해결에 점점 더 많이 활용되고 있지만, 공개 벤치마크에서의 근본 원인 파악 성능은 실제 적용 가능한 수준에 미치지 못합니다. 우리는 이러한 현상이 기존 에이전트들이 인간 네트워크 엔지니어들이 사용하는 체계적인, 계층별 접근 방식을 제대로 반영하지 못하고, 오히려 자유로운 논의를 통해 증거 수집과 가설 수립을 혼동하기 때문이라고 주장합니다. 우리는 SADE(Symptom-Aware Diagnostic Escalation)를 제안합니다. SADE는 고전적인 Cisco 문제 해결 방법론을 명시적인 정책으로 구현한 에이전트입니다. SADE는 증거 수집과 가설 수립을 분리하는 단계별 진단 워크플로우와, 문제 유형별 기술 라이브러리 및 효율적인 진단 도구를 결합하여 사용합니다. 공개된 NIKA 벤치마크의 523개 문제 세트(11가지 미지의 시나리오 포함)를 사용하여 SADE를 평가한 결과, ReAct + GPT-5 기반 모델보다 근본 원인 F1 점수가 37% 포인트 향상되었습니다. SADE 정책 속성을 제거하고 동일한 Claude Sonnet 백엔드를 사용한 모델과의 비교 결과, 22% 포인트의 성능 향상은 SADE 정책 자체에 기인하는 것으로 나타났습니다. 이는 모델 업그레이드의 부산물이 아닌, SADE 정책의 효과임을 보여줍니다.

Original Abstract

Large language model (LLM) agents are increasingly applied to network troubleshooting, but root-cause localization on public benchmarks remains well below practical deployment thresholds. We argue this is because existing agents do not encode the disciplined, layer-by-layer methodology that human network engineers use, and instead rely on free-form deliberation that conflates evidence acquisition with hypothesis commitment. We present SADE (Symptom-Aware Diagnostic Escalation), an agent that encodes the classical Cisco troubleshooting methodology as an explicit policy. SADE pairs a phase-gated diagnostic workflow, which separates evidence acquisition from hypothesis commitment, with a routed library of fault-family skills and high-yield diagnostic helpers. On a held-out 523 incident set of the public NIKA benchmark covering eleven unseen scenarios, SADE improves root-cause F1 by 37 percentage points over a ReAct + GPT-5 baseline; a model-controlled comparison against the same Claude Sonnet backend without the SADE policy attributes 22 of those points to the diagnostic policy alone, showing that the gain is not a side-effect of the model upgrade.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!