언어 모델 에이전트의 목표 지향성에 대한 행동 및 표현 평가
A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents
에이전트의 목표를 이해하는 것은 에이전트의 행동을 설명하고 예측하는 데 도움이 되지만, 에이전트 시스템에 목표를 신뢰성 있게 부여할 수 있는 확립된 방법론은 존재하지 않습니다. 우리는 행동 평가를 모델의 내부 표현에 대한 해석 기반 분석과 통합하여 목표 지향성을 평가하는 프레임워크를 제안합니다. 사례 연구로, LLM 에이전트가 2D 격자 세계에서 목표 상태로 이동하는 과정을 분석합니다. 행동적으로, 우리는 에이전트를 최적 정책과 비교하여 다양한 격자 크기, 장애물 밀도 및 목표 구조에서 성능을 평가했습니다. 그 결과, 성능은 작업 난이도에 따라 증가하지만, 난이도를 유지하는 변환 및 복잡한 목표 구조에 대해 안정적인 것으로 나타났습니다. 그런 다음, 우리는 프로빙 방법을 사용하여 에이전트의 환경 상태 및 다단계 행동 계획에 대한 내부 표현을 해독했습니다. LLM 에이전트는 환경의 대략적인 공간 지도를 비선형적으로 인코딩하며, 위치 및 목표 위치에 대한 작업 관련 단서를 보존한다는 것을 발견했습니다. 또한, 에이전트의 행동은 이러한 내부 표현과 대체로 일관성이 있으며, 추론 과정에서 내부 표현이 재구성되어, 더 넓은 환경 구조적 단서에서 즉각적인 행동 선택을 지원하는 정보로 이동하는 것을 확인했습니다. 이러한 결과는 에이전트가 어떻게 목표를 표현하고 추구하는지를 특성화하기 위해서는 행동 평가 외에도 내부적인 검토가 필요하다는 것을 시사합니다.
Understanding an agent's goals helps explain and predict its behaviour, yet there is no established methodology for reliably attributing goals to agentic systems. We propose a framework for evaluating goal-directedness that integrates behavioural evaluation with interpretability-based analyses of models' internal representations. As a case study, we examine an LLM agent navigating a 2D grid world toward a goal state. Behaviourally, we evaluate the agent against an optimal policy across varying grid sizes, obstacle densities, and goal structures, finding that performance scales with task difficulty while remaining robust to difficulty-preserving transformations and complex goal structures. We then use probing methods to decode the agent's internal representations of the environment state and its multi-step action plans. We find that the LLM agent non-linearly encodes a coarse spatial map of the environment, preserving approximate task-relevant cues about its position and the goal location; that its actions are broadly consistent with these internal representations; and that reasoning reorganises them, shifting from broader environment structural cues toward information supporting immediate action selection. Our findings support the view that introspective examination is required beyond behavioural evaluations to characterise how agents represent and pursue their objectives.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.