RAVEN: 사용자 코드 및 바이너리 프로그램의 메모리 손상 분석을 위한 검색 기반 취약점 탐색 네트워크
RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs
대규모 언어 모델(LLM)은 취약점 분류, 탐지 및 패치 등 다양한 사이버 보안 작업에서 뛰어난 성능을 보여주었습니다. 그러나 자동화된 취약점 보고서 작성 및 분석에 대한 LLM의 잠재력은 아직 충분히 연구되지 않았습니다. 본 논문에서는 LLM 에이전트와 검색 증강 생성(RAG)을 활용하여 포괄적인 취약점 분석 보고서를 생성하는 프레임워크인 RAVEN(Retrieval Augmented Vulnerability Exploration Network)을 소개합니다. RAVEN은 취약한 소스 코드를 입력받아 Google Project Zero의 근본 원인 분석 템플릿에 따라 보고서를 생성합니다. 이 프레임워크는 다음과 같은 네 가지 모듈로 구성됩니다. 취약점 식별을 위한 탐색 에이전트, Google Project Zero 보고서 및 CWE 항목을 포함한 큐레이션된 데이터베이스에서 관련 지식을 검색하는 RAG 엔진, 영향 및 악용 가능성 평가를 위한 분석 에이전트, 그리고 구조화된 보고서 생성을 위한 보고 에이전트입니다. RAVEN은 보고서의 구조적 정확성, 실제 값과의 일치성, 코드 추론 품질 및 수정 품질을 평가하는 작업별 LLM 평가 모델을 포함하여 품질을 보장합니다. NIST-SARD 데이터 세트에서 가져온 15가지 CWE 유형을 포함하는 105개의 취약한 코드 샘플을 사용하여 RAVEN을 평가한 결과, 평균 품질 점수는 54.21%로 나타났으며, 이는 자동화된 취약점 문서화에 대한 본 연구의 효과성을 뒷받침합니다.
Large Language Models (LLMs) have demonstrated remarkable capabilities across various cybersecurity tasks, including vulnerability classification, detection, and patching. However, their potential in automated vulnerability report documentation and analysis remains underexplored. We present RAVEN (Retrieval Augmented Vulnerability Exploration Network), a framework leveraging LLM agents and Retrieval Augmented Generation (RAG) to synthesize comprehensive vulnerability analysis reports. Given vulnerable source code, RAVEN generates reports following the Google Project Zero Root Cause Analysis template. The framework uses four modules: an Explorer agent for vulnerability identification, a RAG engine retrieving relevant knowledge from curated databases including Google Project Zero reports and CWE entries, an Analyst agent for impact and exploitation assessment, and a Reporter agent for structured report generation. To ensure quality, RAVEN includes a task specific LLM Judge evaluating reports across structural integrity, ground truth alignment, code reasoning quality, and remediation quality. We evaluate RAVEN on 105 vulnerable code samples covering 15 CWE types from the NIST-SARD dataset. Results show an average quality score of 54.21%, supporting the effectiveness of our approach for automated vulnerability documentation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.