2602.02304v1 Feb 02, 2026 cs.AI

포지션: 거대 언어 모델의 행동 변화 설명에는 비교적 접근 방식이 필요하다

Position: Explaining Behavioral Shifts in Large Language Models Requires a Comparative Approach

Francesco Giannini
Francesco Giannini
Citations: 22
h-index: 3
Martino Ciaperoni
Martino Ciaperoni
Citations: 106
h-index: 5
Marzio Di Vece
Marzio Di Vece
Citations: 16
h-index: 1
Luca Pappalardo
Luca Pappalardo
Citations: 1,312
h-index: 19
Fosca Giannotti
Fosca Giannotti
Citations: 133
h-index: 6

대규모 파운데이션 모델은 스케일링, 미세 조정, 강화 학습 또는 인컨텍스트 러닝(in-context learning) 후에 나타나는 개입으로 유발된 변화, 즉 행동 변화(behavioral shifts)를 보인다. 이러한 현상에 대한 연구는 최근 주목받고 있지만, 그러한 변화가 나타나는 이유를 설명하는 것은 여전히 간과되고 있다. 고전적인 설명 가능한 AI(XAI) 방법론은 모델의 단일 체크포인트에서 발생하는 실패를 드러낼 수는 있으나, 서로 다른 체크포인트 간에 내부적으로 무엇이 변했는지, 그리고 그 변화에 대해 어떤 설명적 주장이 타당한지를 입증하기에는 구조적으로 부적합하다. 우리는 행동 변화가 비교적으로 설명되어야 한다는 입장을 취한다. 즉, 설명의 핵심 대상은 고립된 단일 모델이 아니라, 기준 모델과 개입된 모델 사이의 개입으로 유발된 변화여야 한다. 이를 위해 우리는 적절한 설명 방법론을 설계할 때 고려해야 할 일련의 요구 사항을 포함하는 비교 XAI(Δ-XAI) 프레임워크를 정립한다. Δ-XAI 방법론의 작동 원리를 보여주기 위해, 우리는 가능한 파이프라인 세트를 소개하고 이를 요구 사항과 연계하며, 구체적인 Δ-XAI 실험을 제시한다.

Original Abstract

Large-scale foundation models exhibit behavioral shifts: intervention-induced behavioral changes that appear after scaling, fine-tuning, reinforcement learning or in-context learning. While investigating these phenomena have recently received attention, explaining their appearance is still overlooked. Classic explainable AI (XAI) methods can surface failures at a single checkpoint of a model, but they are structurally ill-suited to justify what changed internally across different checkpoints and which explanatory claims are warranted about that change. We take the position that behavioral shifts should be explained comparatively: the core target should be the intervention-induced shift between a reference model and an intervened model, rather than any single model in isolation. To this aim we formulate a Comparative XAI ($Δ$-XAI) framework with a set of desiderata to be taken into account when designing proper explaining methods. To highlight how $Δ$-XAI methods work, we introduce a set of possible pipelines, relate them to the desiderata, and provide a concrete $Δ$-XAI experiment.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!