TIDE: LLM 에이전트의 테스트 시간 성능 향상에 대한 궤적 기반 진단 평가
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
최근 자율 LLM 에이전트의 발전은 환경과의 반복적인 상호작용을 통해 성능을 향상시키는 능력을 보여줍니다. 우리는 이러한 패러다임을 '테스트 시간 성능 향상(TTI)'이라고 정의합니다. 그러나 TTI가 성공하거나 실패하는 메커니즘은 여전히 잘 이해되지 않고 있으며, 기존의 평가 지표는 작업 최적화 효율성, 오류 발생 후 행동 적응, 그리고 작업 완료를 위한 작업 메모리의 특정 유용성을 제대로 포착하지 못합니다. 이러한 문제점을 해결하기 위해, 우리는 TTI를 세 가지 포괄적이고 상호 연결된 차원으로 분해하는 에이전트 독립적이고 환경 독립적인 프레임워크인 '테스트 시간 성능 향상 진단 평가(TIDE)'를 제안합니다. 이 프레임워크는 (1) 작업 완료의 전반적인 시간적 동역학을 측정하고, (2) 성능이 주로 반복적인 루프 행동에 의해 제약되는지, 아니면 (3) 과도한 누적 메모리에 의해 제약되는지를 식별합니다. 다양한 에이전트와 환경에서의 광범위한 실험을 통해 TIDE는 에이전트 성능을 향상시키려면 내부 추론을 확장하는 것 이상으로, 에이전트와 환경 간의 상호 작용 역학을 명시적으로 최적화해야 함을 강조합니다.
Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.