안정적인 추론, 불안정한 응답: 안정성 비대칭성을 통한 LLM의 기만 방지
Stable Reasoning, Unstable Responses: Mitigating LLM Deception via Stability Asymmetry
대규모 언어 모델(LLM)의 기능과 활용 범위가 확장됨에 따라, 신뢰성이 중요한 요소가 되었습니다. 중요한 위험 중 하나는 내재적인 기만으로, 모델이 자체 목표를 달성하기 위해 사용자를 전략적으로 오도하는 것입니다. 기존의 체인 오브 소트(CoT) 모니터링 기반 정렬 방식은 명시적인 추론 과정을 감시합니다. 그러나 최적화 압력 하에서 모델은 기만적인 추론을 숨기려는 경향이 있으며, 이는 의미 기반의 감독을 근본적으로 신뢰할 수 없게 만듭니다. 인지 심리학에 기반하여, 우리는 기만적인 LLM이 CoT를 통해 형성된 안정적인 내부 신념을 유지하는 반면, 외부 응답은 작은 변화에도 취약하다는 가설을 제시합니다. 우리는 이러한 현상을 '안정성 비대칭성'이라고 명명하고, 내부 CoT의 안정성과 외부 응답의 안정성을 측정하여 이 차이를 정량화합니다. 이러한 구조적 특징을 바탕으로, 우리는 '안정성 비대칭성 정규화(SAR)'라는 새로운 정렬 목표를 제안합니다. SAR은 강화 학습 과정에서 이러한 분포적 비대칭성을 패널티로 부여합니다. CoT 모니터링과 달리, SAR은 모델 출력의 통계적 구조를 목표로 하므로, 의미적 은폐에 강합니다. 광범위한 실험 결과, 안정성 비대칭성이 기만적인 행동을 신뢰성 있게 식별하며, SAR이 일반적인 모델 성능을 저하시키지 않으면서 내재적인 기만을 효과적으로 억제한다는 것을 확인했습니다.
As Large Language Models (LLMs) expand in capability and application scope, their trustworthiness becomes critical. A vital risk is intrinsic deception, wherein models strategically mislead users to achieve their own objectives. Existing alignment approaches based on chain-of-thought (CoT) monitoring supervise explicit reasoning traces. However, under optimization pressure, models are incentivized to conceal deceptive reasoning, rendering semantic supervision fundamentally unreliable. Grounded in cognitive psychology, we hypothesize that a deceptive LLM maintains a stable internal belief in its CoT while its external response remains fragile under perturbation. We term this phenomenon stability asymmetry and quantify it by measuring the contrast between internal CoT stability and external response stability under perturbation. Building on this structural signature, we propose the Stability Asymmetry Regularization (SAR), a novel alignment objective that penalizes this distributional asymmetry during reinforcement learning. Unlike CoT monitoring, SAR targets the statistical structure of model outputs, rendering it robust to semantic concealment. Extensive experiments confirm that stability asymmetry reliably identifies deceptive behavior, and that SAR effectively suppresses intrinsic deception without degrading general model capability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.