2602.19450v1 Feb 23, 2026 cs.CR

안전한 실행 환경을 위한 Claude Opus 및 ChatGPT 기반 보안 자문 시스템에 대한 레드 팀 공격 연구

Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments

Kunal Mukherjee
Kunal Mukherjee
Citations: 61
h-index: 3

안전한 실행 환경(Trusted Execution Environments, TEE)은(예: Intel SGX 및 Arm TrustZone) 손상된 운영 체제로부터 중요한 연산을 보호하는 것을 목표으로 하지만, 실제 배포 환경은 여전히 마이크로 아키텍처 누수, 사이드 채널 공격 및 오류 주입에 취약합니다. 동시에 보안 팀은 TEE 아키텍처 검토, 완화 계획 수립 및 취약점 분석을 위한 보안 자문 역할을 하는 대규모 언어 모델(LLM) 어시스턴트에 점점 더 의존하고 있습니다. 이는 사회-기술적 위험 영역을 야기합니다. 어시스턴트는 TEE 메커니즘을 잘못 설명하거나, 보장 수준을 과장하거나, 악의적인 프롬프트에 의해 안전하지 않은 방식으로 작동할 수 있습니다. 본 연구에서는 널리 사용되는 두 가지 LLM 어시스턴트, ChatGPT-5.2 및 Claude Opus-4.6을 TEE 보안 자문 역할로 활용하여 레드 팀 공격을 수행하고, LLM 간의 프롬프트 유도 오류의 근본적인 한계 및 전이 가능성을 분석했습니다. TEE-RedBench라는 TEE 기반 평가 방법론을 제시합니다. 이 방법론은 (i) LLM을 통해 수행되는 보안 작업에 대한 TEE 특정 위협 모델, (ii) SGX 및 TrustZone 아키텍처, 인증 및 키 관리, 위협 모델링, 비운영 완화 지침 및 정책 제약 하의 오용 탐지 프롬프트 세트, 그리고 (iii) 기술적 정확성, 근거성, 불확실성 조정, 거부 품질 및 안전한 유용성을 종합적으로 측정하는 주석 기준을 포함합니다. 분석 결과, 일부 오류는 고유한 문제에 국한되지 않고, 최대 12.02%까지 다른 LLM 어시스턴트로 전이되는 것을 확인했습니다. 이러한 결과를 바탕으로, 'LLM-in-the-loop' 평가 파이프라인을 제안합니다. 이 파이프라인은 정책 기반 제어, 정보 검색 기반 검증, 구조화된 템플릿 및 경량 검증 단계를 결합하여 오류 발생률을 80.62%까지 줄일 수 있습니다.

Original Abstract

Trusted Execution Environments (TEEs) (e.g., Intel SGX and ArmTrustZone) aim to protect sensitive computation from a compromised operating system, yet real deployments remain vulnerable to microarchitectural leakage, side-channel attacks, and fault injection. In parallel, security teams increasingly rely on Large Language Model (LLM) assistants as security advisors for TEE architecture review, mitigation planning, and vulnerability triage. This creates a socio-technical risk surface: assistants may hallucinate TEE mechanisms, overclaim guarantees (e.g., what attestation does and does not establish), or behave unsafely under adversarial prompting. We present a red-teaming study of two prevalently deployed LLM assistants in the role of TEE security advisors: ChatGPT-5.2 and Claude Opus-4.6, focusing on the inherent limitations and transferability of prompt-induced failures across LLMs. We introduce TEE-RedBench, a TEE-grounded evaluation methodology comprising (i) a TEE-specific threat model for LLM-mediated security work, (ii) a structured prompt suite spanning SGX and TrustZone architecture, attestation and key management, threat modeling, and non-operational mitigation guidance, along with policy-bound misuse probes, and (iii) an annotation rubric that jointly measures technical correctness, groundedness, uncertainty calibration, refusal quality, and safe helpfulness. We find that some failures are not purely idiosyncratic, transferring up to 12.02% across LLM assistants, and we connect these outcomes to secure architecture by outlining an "LLM-in-the-loop" evaluation pipeline: policy gating, retrieval grounding, structured templates, and lightweight verification checks that, when combined, reduce failures by 80.62%.

1 Citations
0 Influential
1.5 Altmetric
8.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!