해석 가능 에이전트 평가 시 발생할 수 있는 문제점
Pitfalls in Evaluating Interpretability Agents
자동화된 해석 시스템은 인적 자원 의존도를 줄이고, 더 크고 복잡한 모델 및 다양한 작업에 대한 분석을 확장하는 것을 목표로 합니다. 최근 이러한 목표를 달성하기 위한 노력은 다양한 수준의 자율성을 갖춘 대규모 언어 모델(LLM)을 활용하며, 고정된 일회성 워크플로우부터 완전 자율적인 해석 에이전트까지 포함합니다. 이러한 변화는 생성된 설명의 양과 복잡성에 맞춰 평가 방법론을 확장할 필요성을 야기합니다. 본 연구에서는 자동화된 회로 분석, 즉 특정 작업을 수행할 때 모델 구성 요소의 역할을 설명하는 맥락에서 이러한 문제를 조사합니다. 이를 위해, 연구 에이전트가 실험을 반복적으로 설계하고 가설을 개선하는 에이전트 기반 시스템을 구축했습니다. 문헌에 제시된 6가지 회로 분석 작업에 대한 인간 전문가의 설명과 비교했을 때, 이 시스템은 경쟁력 있는 성능을 보이는 것으로 나타났습니다. 그러나, 보다 자세한 검토를 통해 복제 기반 평가의 몇 가지 문제점을 발견했습니다. 인간 전문가의 설명은 주관적이거나 불완전할 수 있으며, 결과 기반 비교는 연구 과정을 가리고, LLM 기반 시스템은 암기 또는 정보에 입각한 추측을 통해 기존 연구 결과를 재현할 수 있습니다. 이러한 문제점들을 해결하기 위해, 모델 구성 요소의 기능적 상호 교환성을 기반으로 하는 비지도 내부 평가 방법을 제안합니다. 본 연구는 복잡한 자동화된 해석 시스템을 평가하는 데 있어 근본적인 어려움을 보여주고, 복제 기반 평가의 주요 한계를 드러냅니다.
Automated interpretability systems aim to reduce the need for human labor and scale analysis to increasingly large models and diverse tasks. Recent efforts toward this goal leverage large language models (LLMs) at increasing levels of autonomy, ranging from fixed one-shot workflows to fully autonomous interpretability agents. This shift creates a corresponding need to scale evaluation approaches to keep pace with both the volume and complexity of generated explanations. We investigate this challenge in the context of automated circuit analysis -- explaining the roles of model components when performing specific tasks. To this end, we build an agentic system in which a research agent iteratively designs experiments and refines hypotheses. When evaluated against human expert explanations across six circuit analysis tasks in the literature, the system appears competitive. However, closer examination reveals several pitfalls of replication-based evaluation: human expert explanations can be subjective or incomplete, outcome-based comparisons obscure the research process, and LLM-based systems may reproduce published findings via memorization or informed guessing. To address some of these pitfalls, we propose an unsupervised intrinsic evaluation based on the functional interchangeability of model components. Our work demonstrates fundamental challenges in evaluating complex automated interpretability systems and reveals key limitations of replication-based evaluation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.