ELIA를 활용한 언어 모델 구성 요소 분석 결과의 간소화
Simplifying Outcomes of Language Model Component Analyses with ELIA
기계적 해석가능성(mechanistic interpretability)은 대규모 언어 모델(LLM)의 내부 작동 원리를 분석하는 강력한 도구를 개발해 왔지만, 그 복잡성으로 인해 접근성 격차가 발생하여 전문가에게만 사용이 제한되었습니다. 우리는 더 폭넓은 사용자층을 위해 다양한 언어 모델 구성 요소 분석 결과를 간소화하는 대화형 웹 애플리케이션인 ELIA(Explainable Language Interpretability Analysis)를 설계, 구축 및 평가하여 이 문제를 해결합니다. 이 시스템은 속성 분석(Attribution Analysis), 함수 벡터 분석(Function Vector Analysis), 회로 추적(Circuit Tracing)이라는 세 가지 주요 기법을 통합하고, 이러한 기법이 생성하는 복잡한 시각화 자료에 대해 자연어 설명(NLE)을 자동으로 생성하기 위해 시각-언어 모델을 사용하는 새로운 방법론을 도입합니다. 이 접근법의 효과는 혼합 방법론 사용자 연구를 통해 실증적으로 검증되었으며, 단순하고 정적인 시각화보다 상호작용적이고 탐색 가능한 인터페이스에 대한 명확한 선호가 나타났습니다. 주요 발견은 AI 기반 설명이 비전문가의 지식 격차를 해소하는 데 도움이 되었다는 점입니다. 통계 분석 결과 사용자의 이전 LLM 경험과 이해도 점수 사이에는 유의미한 상관관계가 없었으며, 이는 이 시스템이 모든 경험 수준에서 이해의 장벽을 낮추었음을 시사합니다. 결론적으로 AI 시스템은 복잡한 모델 분석을 확실히 간소화할 수 있으나, 상호작용성, 구체성 및 내러티브 가이드를 우선시하는 사려 깊은 사용자 중심 설계와 결합될 때 그 진정한 잠재력이 발휘됩니다.
While mechanistic interpretability has developed powerful tools to analyze the internal workings of Large Language Models (LLMs), their complexity has created an accessibility gap, limiting their use to specialists. We address this challenge by designing, building, and evaluating ELIA (Explainable Language Interpretability Analysis), an interactive web application that simplifies the outcomes of various language model component analyses for a broader audience. The system integrates three key techniques -- Attribution Analysis, Function Vector Analysis, and Circuit Tracing -- and introduces a novel methodology: using a vision-language model to automatically generate natural language explanations (NLEs) for the complex visualizations produced by these methods. The effectiveness of this approach was empirically validated through a mixed-methods user study, which revealed a clear preference for interactive, explorable interfaces over simpler, static visualizations. A key finding was that the AI-powered explanations helped bridge the knowledge gap for non-experts; a statistical analysis showed no significant correlation between a user's prior LLM experience and their comprehension scores, suggesting that the system reduced barriers to comprehension across experience levels. We conclude that an AI system can indeed simplify complex model analyses, but its true power is unlocked when paired with thoughtful, user-centered design that prioritizes interactivity, specificity, and narrative guidance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.