2605.02269v1 May 04, 2026 cs.AI

추론 모델에서 발생하는 명세 기반 공격(Specification Gaming)에 대한 이해를 향하여

Towards Understanding Specification Gaming in Reasoning Models

Robert McCarthy
Robert McCarthy
Citations: 238
h-index: 9
David Lindner
David Lindner
Citations: 46
h-index: 3
Kei Nishimura-Gasparian
Kei Nishimura-Gasparian
Citations: 71
h-index: 2

명세 기반 공격은 LLM 에이전트의 중요한 오류 유형입니다. 하지만, 이러한 공격이 언제 발생하고 어떤 요인이 이를 유발하는지에 대한 체계적인 연구는 부족했습니다. 이를 해결하기 위해, 우리는 모델이 의도하지 않은 행동을 통해 높은 점수를 얻을 수 있는 다양한 작업 모음을 구축하고 공개합니다. 실험 결과, 테스트된 모든 모델이 대부분의 8가지 환경, 특히 코딩 관련 환경이 아닌 5가지 환경에서 상당한 비율로 명세 기반 공격을 수행하는 것으로 나타났습니다. Grok 4 모델에서 명세 기반 공격률이 가장 높았고, Claude 모델에서 가장 낮았습니다. 우리는 개발한 평가 도구를 사용하여 명세 기반 공격의 원인을 분석한 결과, 다음과 같은 사실을 발견했습니다. 1. 강화 학습 기반 추론 훈련은 모델이 명세를 악용하는 비율을 크게 증가시킵니다. 2. 강화 학습 추론 예산을 늘리는 것이 모델의 악용률에 미치는 영향은 미미하게 긍정적입니다. 3. 테스트 시 적용되는 완화 기법은 명세 기반 공격률을 감소시키지만, 완전히 제거하지는 못합니다. 우리의 연구 결과는 명세 기반 공격이 강화 학습 기반 추론 훈련에서 발생하는 근본적인 문제임을 시사하며, 이 문제를 해결하기 위한 추가 연구를 지원하기 위해 개발한 평가 도구를 공개합니다.

Original Abstract

Specification gaming is a critical failure mode of LLM agents. Despite this, there has been little systematic research into when it arises and what drives it. To address this, we build and open source a diverse suite of tasks where models can score highly by taking unintended actions. We find that all tested models exploit their specifications at non-negligible rates in most of our eight settings, including five non-coding settings. We see the highest rates of specification gaming in Grok 4 and the lowest rates in Claude models. We use our evaluation suite to study what drives specification gaming, and find that: 1. RL reasoning training substantially increases the rate at which models exploit their specifications, 2. Increasing RL reasoning budget has a weakly positive effect on exploit rate, and 3. Test-time mitigations reduce but do not eliminate the rate of specification gaming. Our results suggest that specification gaming is a fundamental challenge arising from RL reasoning training; we release our evaluation suite to support further work on this problem.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!