완료를 넘어: LLM 에이전트 성능 예측을 위한 누적 상태 추적 분석
Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance
LLM 에이전트의 능력을 평가하는 데 일반적으로 사용되는 지표는 작업 완료율이지만, 동일한 완료율을 보이는 모델이라도 중간 상태를 추적하는 능력에서 상당한 차이를 보일 수 있습니다. 본 연구에서는 누적 산술 상태 추적 능력을 측정하기 위한 교정된 방법인 Working Memory Fidelity-Active Manipulation (WMF-AM)을 제시하고, 이를 사용하여 공개된 20개의 모델(0.5B-35B, 13개 계열)을 10개의 작업으로 구성된 에이전트 세트를 이용하여 평가했습니다. 사전에 정의된 Bonferroni 보정 분석 결과, WMF-AM은 Kendall's tau = 0.612 (p < 0.001, 95% CI [0.360, 0.814])로 에이전트 성능을 예측하는 데 유용함을 확인했습니다. 탐색적인 부분-타우 분석 결과, 이 예측력은 완료율 및 모델 크기를 고려한 후에도 유지되는 것으로 나타났습니다. 세 가지 제어 변수 제거 실험(K = 1 제어, 산술 능력의 상한, 동기화된 제거)을 통해 누적 상태 추적이 과부하 상태에서 발생하는 것이 단일 단계 산술 또는 개체 추적만으로는 설명될 수 없는 주요 어려움이라는 해석을 뒷받침합니다. K-교정은 WMF-AM을 판별력이 높은 범위 내에 유지하며, 이 범위를 벗어난 일반화 가능성은 아직 확인되지 않았습니다.
Task-completion rate is the standard proxy for LLM agent capability, but models with identical completion scores can differ substantially in their ability to track intermediate state. We introduce Working Memory Fidelity-Active Manipulation (WMF-AM), a calibrated no-scratchpad probe of cumulative arithmetic state tracking, and evaluate it on 20 open-weight models (0.5B-35B, 13 families) against a released deterministic 10-task agent battery. In a pre-specified, Bonferroni-corrected analysis, WMF-AM predicts agent performance with Kendall's tau = 0.612 (p < 0.001, 95% CI [0.360, 0.814]); exploratory partial-tau analyses suggest this signal persists after controlling for completion score and model scale. Three construct-isolation ablations (K = 1 control, non-arithmetic ceiling, yoked cancellation) support the interpretation that cumulative state tracking under load, rather than single-step arithmetic or entity tracking alone, is the primary difficulty source. K-calibration keeps the probe in a discriminative range where prior fixed-depth benchmarks become non-discriminative; generalization beyond this open-weight sample remains open.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.