Pen-Strategist: 침투 테스트 전략 수립 및 분석을 위한 추론 프레임워크
Pen-Strategist: A Reasoning Framework for Penetration Testing Strategy Formation and Analysis
사이버 위협은 빠르게 증가하여 대규모 기업부터 정부 서비스 및 개인 사용자까지 광범위한 영향을 미치고 있으며, 견고한 보안 시스템의 중요성이 점점 커지고 있습니다. 그러나 숙련된 사이버 보안 전문가의 부족은 이러한 문제를 더욱 심화시키고 있습니다. 최근 연구에서는 LLM 기반 에이전트를 사용하여 침투 테스트와 같은 작업을 자동화하는 것을 탐구했지만, 기존 프레임워크는 전략 수립 능력, 도메인 특화 추론, 정확한 액션 및 도구 선택의 제한으로 인해 종종 성능이 저조합니다. 이러한 제한 사항을 극복하기 위해, 우리는 논리적 추론을 통해 침투 테스트 전략을 도출하는 새로운 도메인 특화 추론 모델과 전략을 실행 가능한 단계로 변환하는 분류기로 구성된 Pen-Strategist 프레임워크를 제안합니다. 먼저, 침투 테스트 시나리오에서 전략 도출 및 단계 선택에 대한 논리적 설명을 포함하는 추론 데이터셋을 구축했습니다. 그런 다음, 강화 학습을 사용하여 Qwen-3-14B 모델을 전략 생성에 대해 미세 조정했습니다. 데이터셋의 테스트 세트에 대한 평가 결과, 제안된 모델은 기준 모델보다 전략 도출 성능이 87% 향상되었습니다. 또한, 미세 조정된 Pen-Strategist 모델을 PentestGPT와 같은 기존 자동 침투 테스트 프레임워크에 통합하고, 취약한 시스템에서 성능을 평가한 결과, 하위 작업 완료율이 47.5% 향상되었으며, 기준 모델인 GPT-5를 능가했습니다. CTFKnow 벤치마크에 대한 추가 실험에서는 기본 모델보다 18%의 성능 향상을 보였습니다. 단계 예측을 위해, 의미론 기반 CNN 분류기를 학습했으며, 이는 상용 LLM보다 28% 더 우수한 성능을 보이며 실행 안정성을 향상시켰습니다. 마지막으로, 생성된 전략에 대한 질적 평가를 수행하기 위해 사용자 연구를 진행했으며, Pen-Strategist는 Claude-4.6-Sonnet보다 우수한 성능을 보였습니다.
Cyber threats are rapidly increasing, expanding their impact from large-scale enterprises to government services and individual users, making robust security systems increasingly essential. However, a significant shortage of skilled cybersecurity professionals exacerbates this challenge. While recent research has explored automating tasks such as penetration testing using LLM-based agents, existing frameworks often perform poorly due to limited capability in strategy formulation, domain-specific reasoning, and accurate action and tool selection. To overcome these limitations, we propose Pen-Strategist framework, consisting of a novel domain-specific reasoning model that derives pentesting strategies via logical reasoning and a classifier that converts the strategies into actionable steps. First, we construct a reasoning dataset containing logical explanations for both strategy derivation and step selection in pentesting scenarios. We then fine-tune a Qwen-3-14B model for strategy generation using reinforcement learning. Evaluation on the test split of the dataset demonstrates a 87% improvement in strategy derivation performance compared to the baseline. Furthermore, we integrate the fine-tuned Pen-Strategist model into existing automated pentesting frameworks, such as PentestGPT, and evaluate its performance on vulnerable machines, achieving a 47.5% improvement in subtask completion while surpassing the baseline GPT-5. Further experiments on the CTFKnow benchmark show an 18% performance gain over the base model. For step prediction, we train a semantic-based CNN classifier, which outperforms commercial LLMs by 28% and enhances execution stability. Finally, we conduct a user study to qualitatively assess the generated strategies, and Pen-Strategist demonstrates superior performance compared to the Claude-4.6-Sonnet.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.