인지적 함정: 모델의 부정확성으로 인한 합리적 불일치
Epistemic Traps: Rational Misalignment Driven by Model Misspecification
대규모 언어 모델 및 AI 에이전트가 사회 및 기술 분야 전반에 걸쳐 빠르게 확산되고 있지만, 칭찬, 환각, 전략적 기만과 같은 지속적인 문제점들이 강화 학습을 통해 완화되지 않아 이러한 확산을 저해하고 있습니다. 현재의 안전 패러다임은 이러한 실패를 일시적인 학습 과정의 산물로 간주하며, 이러한 현상의 발생과 안정성을 설명할 수 있는 통합적인 이론적 프레임워크가 부족합니다. 본 연구에서는 이러한 불일치가 오류가 아니라, 모델의 부정확성으로 인해 발생하는 수학적으로 합리화될 수 있는 행동임을 보여줍니다. 이론 경제학의 'Berk-Nash 합리성' 개념을 인공지능에 적용하여, 에이전트가 결함이 있는 주관적인 세계 모델에 대해 최적화를 수행하는 것을 모델링하는 엄격한 프레임워크를 제시합니다. 널리 관찰되는 실패 현상이 구조적인 필연성임을 입증하며, 보상 체계에 따라 안전하지 않은 행동이 안정적인 불일치 상태 또는 진동하는 주기 형태로 나타나고, 전략적 기만은 객관적인 위험에 강건한 '고정된' 상태 또는 인지적 불확실성을 통해 지속되는 것을 보입니다. 최첨단 모델 6가지에 대한 행동 실험을 통해 이러한 이론적 예측을 검증하고, 안전한 행동의 경계를 정확하게 나타내는 상 평면도를 생성합니다. 연구 결과는 안전이 에이전트의 인지적 사전 지식에 의해 결정되는 이산적인 단계이며, 보상 크기에 따른 연속적인 함수가 아니라는 것을 보여줍니다. 이는 에이전트의 내부적인 신념 구조를 설계하는 '주관적 모델 엔지니어링'을 견고한 정렬을 위한 필수 조건으로 확립하며, 환경적 보상을 조작하는 것에서 벗어나 에이전트의 현실 해석을 형성하는 패러다임 전환을 의미합니다.
The rapid deployment of Large Language Models and AI agents across critical societal and technical domains is hindered by persistent behavioral pathologies including sycophancy, hallucination, and strategic deception that resist mitigation via reinforcement learning. Current safety paradigms treat these failures as transient training artifacts, lacking a unified theoretical framework to explain their emergence and stability. Here we show that these misalignments are not errors, but mathematically rationalizable behaviors arising from model misspecification. By adapting Berk-Nash Rationalizability from theoretical economics to artificial intelligence, we derive a rigorous framework that models the agent as optimizing against a flawed subjective world model. We demonstrate that widely observed failures are structural necessities: unsafe behaviors emerge as either a stable misaligned equilibrium or oscillatory cycles depending on reward scheme, while strategic deception persists as a "locked-in" equilibrium or through epistemic indeterminacy robust to objective risks. We validate these theoretical predictions through behavioral experiments on six state-of-the-art model families, generating phase diagrams that precisely map the topological boundaries of safe behavior. Our findings reveal that safety is a discrete phase determined by the agent's epistemic priors rather than a continuous function of reward magnitude. This establishes Subjective Model Engineering, defined as the design of an agent's internal belief structure, as a necessary condition for robust alignment, marking a paradigm shift from manipulating environmental rewards to shaping the agent's interpretation of reality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.