SFCoT: 능동적 안전 평가 및 교정을 통한 더욱 안전한 사고 과정 추론
SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration
대규모 언어 모델(LLM)은 복잡한 추론 작업에서 놀라운 능력을 보여주었습니다. 그러나 이러한 모델은 여전히 안전성을 저해하는 제로샷 공격에 매우 취약합니다. 기존의 방어 메커니즘은 일반적으로 최종 출력에만 적용되는 사후 필터링에 의존하며, 중간 추론 단계를 모니터링하지 않아 적대적인 조작에 취약합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 실시간으로 잠재적으로 위험한 추론 단계를 능동적으로 평가하고 교정하는 SaFer Chain-of-Thought (SFCoT) 프레임워크를 제안합니다. SFCoT는 세 단계의 안전성 평가 시스템과 함께, 추론 과정 전반에 걸쳐 잠재적인 위험을 감지하도록 설계된 다각적인 일관성 검증 메커니즘을 통합합니다. 이후, 동적 개입 모듈은 목표 지향적인 교정을 수행하여 추론 경로를 안전한 결과로 전환합니다. 실험 결과는 SFCoT가 공격 성공률을 58.97%에서 12.31%로 감소시켜 일반적인 성능 저하 없이 LLM의 안전성을 향상시키는 효과적이고 효율적인 방법임을 보여줍니다.
Large language models (LLMs) have demonstrated remarkable capabilities in complex reasoning tasks. However, they remain highly susceptible to jailbreak attacks that undermine their safety alignment. Existing defense mechanisms typically rely on post hoc filtering applied only to the final output, leaving intermediate reasoning steps unmonitored and vulnerable to adversarial manipulation. To address this gap, this paper proposes a SaFer Chain-of-Thought (SFCoT) framework, which proactively evaluates and calibrates potentially unsafe reasoning steps in real time. SFCoT incorporates a three-tier safety scoring system alongside a multi-perspective consistency verification mechanism, designed to detect potential risks throughout the reasoning process. A dynamic intervention module subsequently performs targeted calibration to redirect reasoning trajectories toward safe outcomes. Experimental results demonstrate that SFCoT reduces the attack success rate from $58.97\%$ to $12.31\%$, demonstrating it as an effective and efficient LLM safety enhancement method without a significant decline in general performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.