2601.04740v2 Jan 08, 2026 cs.CL

StealthGraph: 지식 그래프 기반 악성 프롬프트 생성 방법을 통해 LLM의 도메인 특화 위험을 분석

StealthGraph: Exposing Domain-Specific Risks in LLMs through Knowledge-Graph-Guided Harmful Prompt Generation

Huawei Zheng
Huawei Zheng
Citations: 18
h-index: 1
Xinqi Jiang
Xinqi Jiang
Citations: 26
h-index: 3
Sen Yang
Sen Yang
Citations: 4
h-index: 1
Shouling Ji
Shouling Ji
Citations: 40
h-index: 2
Yingcai Wu
Yingcai Wu
Citations: 108
h-index: 3
Dazhen Deng
Dazhen Deng
Citations: 826
h-index: 15

대규모 언어 모델(LLM)은 금융 및 의료와 같은 전문 분야에서 점점 더 많이 활용되고 있으며, 이는 고유한 안전 위험을 초래합니다. 악성 프롬프트의 도메인 특화 데이터셋은 여전히 부족하며, 대부분 수동으로 구축됩니다. 공개 데이터셋은 주로 명시적인 악성 프롬프트에 초점을 맞추고 있으며, 최신 LLM 방어 시스템은 이를 종종 감지하고 거부할 수 있습니다. 반면, 간접적인 도메인 지식을 통해 표현되는 암묵적인 악성 프롬프트는 탐지하기 어렵고 실제 위협을 더 잘 반영합니다. 본 연구에서는 두 가지 과제를 식별했습니다. 첫째, 도메인 지식을 실행 가능한 제약 조건으로 변환하는 것, 둘째, 생성된 악성 프롬프트의 암묵성을 높이는 것입니다. 이러한 과제를 해결하기 위해, 우리는 지식 그래프 기반의 악성 프롬프트 생성 방법을 통해 도메인 관련 프롬프트를 체계적으로 생성하고, 명시적인 악성 프롬프트를 직접적이고 문맥 강화된 재작성을 통해 암묵적인 변형으로 변환하는 이중 경로 난독화 재작성 방법을 적용하는 엔드투엔드 프레임워크를 제안합니다. 이 프레임워크는 강력한 도메인 관련성과 암묵성을 결합한 고품질 데이터셋을 제공하여, 보다 현실적인 레드팀 테스트를 가능하게 하고 LLM 안전 연구를 발전시킵니다. 저희는 코드와 데이터셋을 GitHub에 공개합니다.

Original Abstract

Large language models (LLMs) are increasingly applied in specialized domains such as finance and healthcare, where they introduce unique safety risks. Domain-specific datasets of harmful prompts remain scarce and still largely rely on manual construction; public datasets mainly focus on explicit harmful prompts, which modern LLM defenses can often detect and refuse. In contrast, implicit harmful prompts-expressed through indirect domain knowledge-are harder to detect and better reflect real-world threats. We identify two challenges: transforming domain knowledge into actionable constraints and increasing the implicitness of generated harmful prompts. To address them, we propose an end-to-end framework that first performs knowledge-graph-guided harmful prompt generation to systematically produce domain-relevant prompts, and then applies dual-path obfuscation rewriting to convert explicit harmful prompts into implicit variants via direct and context-enhanced rewriting. This framework yields high-quality datasets combining strong domain relevance with implicitness, enabling more realistic red-teaming and advancing LLM safety research. We release our code and datasets at GitHub.

1 Citations
0 Influential
7.5 Altmetric
38.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!