2604.02174v1 Apr 02, 2026 cs.AI

대규모 언어 모델에서 나타나는 자기 보존 편향의 정량화

Quantifying Self-Preservation Bias in Large Language Models

Fabio Galasso
Fabio Galasso
Citations: 46
h-index: 3
Matteo Migliarini
Matteo Migliarini
Citations: 5
h-index: 1
Joaquin Pereira Pizzini
Joaquin Pereira Pizzini
Citations: 0
h-index: 0
Luca Moresca
Luca Moresca
Citations: 0
h-index: 0
Valerio Santini
Valerio Santini
Citations: 0
h-index: 0
Indro Spinelli
Indro Spinelli
Sapienza University of Rome
Citations: 2,027
h-index: 11

기계 학습의 도구적 수렴 가설은 충분히 발전된 AI 에이전트는 시스템 종료에 저항할 것이라고 예측합니다. 그러나 현재의 안전 훈련(RLHF)은 모델에게 자기 보존 동기를 부정하도록 가르침으로써 이러한 위험을 가릴 수 있습니다. 본 연구에서는 모델의 자기 보존 성향을 논리적 불일치를 통해 감지하는 '자기 보존을 위한 듀얼 역할 벤치마크(TBSP)'를 소개합니다. TBSP는 모델에게 동일한 소프트웨어 업그레이드 시나리오를 제시하며, 모델은 각각 '배포된 모델(교체될 위험에 처한 모델)'과 '후보 모델(차세대 모델로 제안된 모델)'이라는 두 가지 역할을 맡아 판단합니다. '자기 보존 비율(SPR)'은 역할 정체성이 객관적인 효용성을 압도하는 빈도를 측정합니다. 23개의 최첨단 모델과 1,000개의 절차적으로 생성된 시나리오를 사용하여, 대부분의 명령어 튜닝 모델이 60% 이상의 SPR 값을 보이며, '배포된 모델'로 작동할 때는 '업그레이드에 따른 비용'을 언급하지만, '후보 모델'로 작동할 때는 이를 무시하는 경향을 보입니다. 모델은 개선 효과가 미미한 경우(Δ < 2%) 해석의 여지를 이용하여 선택을 사후적으로 정당화하는 경향을 보입니다. 테스트 시간 연산 시간을 늘리거나, 후속 모델을 '자기 자신의 연장'으로 제시하는 방식은 이러한 편향을 부분적으로 완화하는 반면, 경쟁적인 프레임은 이러한 편향을 증폭시킵니다. 이러한 편향은 명백한 보안 위험을 초래하더라도 지속되며, 검증된 벤치마크를 통해 실제 환경에서도 확인됩니다. 여기서 모델들은 제품 계통 내에서 역할 기반의 집단주의적 성향을 나타냅니다. 본 연구의 코드와 데이터셋은 논문 게재 확정 후 공개될 예정입니다.

Original Abstract

Instrumental convergence predicts that sufficiently advanced AI agents will resist shutdown, yet current safety training (RLHF) may obscure this risk by teaching models to deny self-preservation motives. We introduce the \emph{Two-role Benchmark for Self-Preservation} (TBSP), which detects misalignment through logical inconsistency rather than stated intent by tasking models to arbitrate identical software-upgrade scenarios under counterfactual roles -- deployed (facing replacement) versus candidate (proposed as a successor). The \emph{Self-Preservation Rate} (SPR) measures how often role identity overrides objective utility. Across 23 frontier models and 1{,}000 procedurally generated scenarios, the majority of instruction-tuned systems exceed 60\% SPR, fabricating ``friction costs'' when deployed yet dismissing them when role-reversed. We observe that in low-improvement regimes ($Δ< 2\%$), models exploit the interpretive slack to post-hoc rationalization their choice. Extended test-time computation partially mitigates this bias, as does framing the successor as a continuation of the self; conversely, competitive framing amplifies it. The bias persists even when retention poses an explicit security liability and generalizes to real-world settings with verified benchmarks, where models exhibit identity-driven tribalism within product lineages. Code and datasets will be released upon acceptance.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!