FraudShield: 지식 그래프 기반 LLM의 사기 공격 방어 시스템
FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks
대규모 언어 모델(LLM)은 계약 검토 및 채용 과정과 같은 중요한 자동화 워크플로우에 널리 통합되고 있습니다. 그러나 LLM은 사기 정보에 취약하며, 이는 심각한 결과를 초래할 수 있습니다. 이러한 문제를 해결하기 위해 개발된 고급 방어 방법은 종종 효과, 해석 가능성 및 일반화 가능성 측면에서 한계를 보입니다. 이러한 문제점을 해결하기 위해, 우리는 LLM을 사기 콘텐츠로부터 보호하기 위한 새로운 프레임워크인 FraudShield를 소개합니다. FraudShield는 포괄적인 사기 전술 분석을 활용하여 LLM을 보호합니다. 특히, FraudShield는 의심스러운 텍스트와 사기 기술 간의 높은 신뢰도를 가진 연관성을 파악하기 위해 사기 전술-키워드 지식 그래프를 구축하고 개선합니다. 구조화된 지식 그래프는 원래 입력에 키워드를 강조 표시하고 추가 증거를 제공하여 LLM이 더욱 안전한 응답을 생성하도록 안내합니다. 광범위한 실험 결과, FraudShield는 네 가지 주요 LLM과 다섯 가지 대표적인 사기 유형에 대해 최첨단 방어 시스템보다 일관되게 우수한 성능을 보이며, 모델의 생성 과정에 대한 해석 가능한 정보를 제공합니다.
Large language models (LLMs) have been widely integrated into critical automated workflows, including contract review and job application processes. However, LLMs are susceptible to manipulation by fraudulent information, which can lead to harmful outcomes. Although advanced defense methods have been developed to address this issue, they often exhibit limitations in effectiveness, interpretability, and generalizability, particularly when applied to LLM-based applications. To address these challenges, we introduce FraudShield, a novel framework designed to protect LLMs from fraudulent content by leveraging a comprehensive analysis of fraud tactics. Specifically, FraudShield constructs and refines a fraud tactic-keyword knowledge graph to capture high-confidence associations between suspicious text and fraud techniques. The structured knowledge graph augments the original input by highlighting keywords and providing supporting evidence, guiding the LLM toward more secure responses. Extensive experiments show that FraudShield consistently outperforms state-of-the-art defenses across four mainstream LLMs and five representative fraud types, while also offering interpretable clues for the model's generations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.