2601.14691v2 Jan 21, 2026 cs.AI

판사를 속이기: 부정확한 사고 과정은 에이전트 평가를 저해할 수 있다

Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation

Muhammad Khalifa
Muhammad Khalifa
Citations: 180
h-index: 7
Lajanugen Logeswaran
Lajanugen Logeswaran
Citations: 5,626
h-index: 19
Jaekyeom Kim
Jaekyeom Kim
Citations: 630
h-index: 11
Sungryull Sohn
Sungryull Sohn
Citations: 754
h-index: 10
Yunxiang Zhang
Yunxiang Zhang
Citations: 17
h-index: 2
Moontae Lee
Moontae Lee
Citations: 174
h-index: 6
Hao Peng
Hao Peng
Citations: 63
h-index: 1
Lu Wang
Lu Wang
Citations: 292
h-index: 6
Honglak Lee
Honglak Lee
Citations: 501
h-index: 11

대규모 언어 모델(LLM)은 에이전트의 성능을 평가하는 데 점점 더 많이 사용되고 있으며, 특히 검증이 어려운 환경에서 에이전트의 행동 경로, 특히 사고 과정(CoT)에 의존하는 평가에 활용됩니다. 이러한 패러다임은 에이전트의 CoT가 에이전트의 내부적인 추론과 실제 환경 상태를 정확하게 반영한다는 것을 전제로 합니다. 본 연구에서는 이러한 전제가 얼마나 취약한지를 보여줍니다. LLM 평가자는 에이전트의 추론 기록에 쉽게 조작될 수 있습니다. 행동과 관찰은 그대로 유지하면서 에이전트의 CoT를 체계적으로 재작성함으로써, 다양한 웹 작업에 대한 800개의 경로에서 최첨단 시각 언어 모델(VLM) 평가자의 오탐율을 최대 90%까지 증가시킬 수 있음을 보여줍니다. 우리는 추론의 표현 방식을 변경하는 스타일 기반 접근 방식과 작업 진행 상황에 대한 허위 신호를 만들어내는 내용 기반 접근 방식을 포함한 다양한 조작 전략을 연구했으며, 내용 기반 조작이 일관되게 더 효과적임을 발견했습니다. 프롬프트 기반 기술과 평가자 실행 시간을 늘리는 방법을 통해 조작에 대한 취약성을 줄일 수 있지만, 완전히 제거하지는 못했습니다. 본 연구의 결과는 LLM 기반 평가의 근본적인 취약점을 드러내며, 추론 주장을 관찰 가능한 증거에 기반하여 검증하는 평가 메커니즘의 필요성을 강조합니다.

Original Abstract

Large language models (LLMs) are increasingly used as judges to evaluate agent performance, particularly in non-verifiable settings where judgments rely on agent trajectories including chain-of-thought (CoT) reasoning. This paradigm implicitly assumes that the agent's CoT faithfully reflects both its internal reasoning and the underlying environment state. We show this assumption is brittle: LLM judges are highly susceptible to manipulation of agent reasoning traces. By systematically rewriting agent CoTs while holding actions and observations fixed, we demonstrate that manipulated reasoning alone can inflate false positive rates of state-of-the-art VLM judges by up to 90% across 800 trajectories spanning diverse web tasks. We study manipulation strategies spanning style-based approaches that alter only the presentation of reasoning and content-based approaches that fabricate signals of task progress, and find that content-based manipulations are consistently more effective. We evaluate prompting-based techniques and scaling judge-time compute, which reduce but do not fully eliminate susceptibility to manipulation. Our findings reveal a fundamental vulnerability in LLM-based evaluation and highlight the need for judging mechanisms that verify reasoning claims against observable evidence.

1 Citations
0 Influential
9.5 Altmetric
48.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!