AEGIS: 단서에서 판결까지 - 대화와 메타-감사를 통한 그래프 기반 딥 취약점 추론
AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing
대규모 언어 모델(LLM)은 취약점 탐지에 점점 더 많이 활용되고 있지만, 그 추론 능력은 근본적으로 건전하지 않습니다. 우리는 주요 완화 패러다임(에이전트 기반 토론 및 검색 증강) 모두에서 나타나는 근본적인 원인을 파악했습니다. 바로 경계가 없고, 가설에 특화된 증거 기반이 부족한, 즉 토대를 갖추지 못한 의사 결정 공간에서 추론이 이루어진다는 점입니다. 이러한 토대가 없으면 에이전트는 기능 간의 인과 관계를 임의로 생성하고, 검색 휴리스틱은 저장소의 데이터 흐름 토폴로지와 분리된 일반적인 지식을 제공합니다. 결과적으로, 도출되는 결론은 검증 가능한 사실이 아닌 수사적 설득력에 의해 좌우됩니다. 이러한 의사 결정을 토대로 AEGIS는 새로운 다중 에이전트 프레임워크를 제시합니다. AEGIS는 탐지를 토대를 갖춘 추측에서 폐쇄된 사실 기반 환경에서의 법의학적 검증으로 전환합니다. "단서에서 판결까지"라는 철학에 따라, AEGIS는 먼저 의심스러운 코드 이상 현상(단서)을 식별한 다음, 저장소 수준의 코드 속성 그래프를 활용하여 각 단서에 대한 변수별 의존성 체인을 동적으로 재구성합니다. 이러한 폐쇄된 증거 경계 내에서, 검증자 에이전트는 악용 가능성에 대한 상반되는 논쟁을 구성하고, 독립적인 감사 에이전트는 모든 주장을 추적 정보와 비교하여 검토하며, 환각된 판결을 방지하기 위해 거부권을 행사합니다. 엄격한 PrimeVul 데이터 세트에 대한 평가는 AEGIS가 새로운 최고 성능을 달성하여 122개의 쌍별 정확한 예측을 수행한다는 것을 보여줍니다. 저희가 알기로는 이 벤치마크에서 100점을 넘어선 첫 번째 접근 방식입니다. AEGIS는 선도적인 기본 모델과 비교하여 최대 54.40%의 오탐율을 줄이며, 작업별 특정 훈련 없이 샘플당 평균 0.09달러의 비용으로 작동합니다.
Large Language Models (LLMs) are increasingly adopted for vulnerability detection, yet their reasoning remains fundamentally unsound. We identify a root cause shared by both major mitigation paradigms (agent-based debate and retrieval augmentation): reasoning in an ungrounded deliberative space that lacks a bounded, hypothesis-specific evidence base. Without such grounding, agents fabricate cross-function dependencies, and retrieval heuristics supply generic knowledge decoupled from the repository's data-flow topology. Consequently, the resulting conclusions are driven by rhetorical persuasiveness rather than verifiable facts. To ground this deliberation, we present AEGIS, a novel multi-agent framework that shifts detection from ungrounded speculation to forensic verification over a closed factual substrate. Guided by a "From Clue to Verdict" philosophy, AEGIS first identifies suspicious code anomalies (clues), then dynamically reconstructs per-variable dependency chains for each clue via on-demand slicing over a repository-level Code Property Graph. Within this closed evidence boundary, a Verifier Agent constructs competing dialectical arguments for and against exploitability, while an independent Audit Agent scrutinizes every claim against the trace, exercising veto power to prevent hallucinated verdicts. Evaluation on the rigorous PrimeVul dataset demonstrates that AEGIS establishes a new state-of-the-art, achieving 122 Pair-wise Correct Predictions. To our knowledge, this is the first approach to surpass 100 on this benchmark. It reduces the false positive rate by up to 54.40% compared to leading baselines, at an average cost of $0.09 per sample without any task-specific training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.