Agentic-imodels: 자율 연구를 통한 에이전트 기반 해석 도구의 진화
Agentic-imodels: Evolving agentic interpretability tools via autoresearch
에이전트 기반 데이터 과학(ADS) 시스템은 데이터 분석, 모델 적합, 해석 능력을 빠르게 향상시키고 있으며, 미래에는 에이전트가 대부분의 데이터 과학 작업을 수행할 가능성이 있습니다. 그러나 현재 ADS 시스템은 인간이 이해하기 쉬운 통계 도구를 사용하며, 에이전트가 이해하기 쉬운 도구를 사용하지 않습니다. 이를 해결하기 위해, 본 연구에서는 에이전트가 이해하도록 설계된 데이터 과학 도구를 진화시키는 에이전트 기반 자율 연구 루프인 Agentic-imodels를 소개합니다. 구체적으로, 본 연구는 테이블 데이터에 대한 scikit-learn과 호환되는 회귀 모델 라이브러리를 개발하며, 예측 성능과 새로운 LLM 기반 해석 지표를 모두 최적화합니다. 이 지표는 LLM이 모델의 문자열 표현을 "시뮬레이션"할 수 있는지, 즉 LLM이 모델의 문자열 출력만 읽고 모델의 동작에 대한 질문에 답변할 수 있는지 여부를 평가하는 일련의 LLM 평가 테스트를 측정합니다. 연구 결과, 진화된 모델은 예측 성능과 에이전트에게 친화적인 해석력을 동시에 향상시키며, 새로운 데이터 세트와 새로운 해석 테스트에도 일반화됩니다. 또한, 이러한 진화된 모델은 Copilot CLI, Claude Code, Codex 등의 엔드투엔드 ADS 성능을 향상시켜 BLADE 벤치마크에서 최대 73%의 성능 향상을 보였습니다.
Agentic data science (ADS) systems are rapidly improving their capability to autonomously analyze, fit, and interpret data, potentially moving towards a future where agents conduct the vast majority of data-science work. However, current ADS systems use statistical tools designed to be interpretable by humans, rather than interpretable by agents. To address this, we introduce Agentic-imodels, an agentic autoresearch loop that evolves data-science tools designed to be interpretable by agents. Specifically, it develops a library of scikit-learn-compatible regressors for tabular data that are optimized for both predictive performance and a novel LLM-based interpretability metric. The metric measures a suite of LLM-graded tests that probe whether a fitted model's string representation is "simulatable" by an LLM, i.e. whether the LLM can answer questions about the model's behavior by reading its string output alone. We find that the evolved models jointly improve predictive performance and agent-facing interpretability, generalizing to new datasets and new interpretability tests. Furthermore, these evolved models improve downstream end-to-end ADS, increasing performance for Copilot CLI, Claude Code, and Codex on the BLADE benchmark by up to 73%
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.