혼란 지수(Perplexity)를 넘어: 지도 학습 기반 미세 조정(Supervised Fine-Tuning)에서의 지식 유지 능력을 평가하는 경량 벤치마크
Beyond Perplexity: A Lightweight Benchmark for Knowledge Retention in Supervised Fine-Tuning
지도 학습 기반 미세 조정(Supervised Fine-Tuning, SFT)은 대규모 언어 모델(Large Language Models, LLM)에 도메인 지식을 주입하는 일반적인 방법입니다. 그러나 훈련 과정을 모니터링할 때 검증 손실(validation perplexity)에만 의존하는 것은 종종 충분하지 않으며, 이는 표면적인 스타일 모방과 실제적인 사실 정보의 내면화 간의 구분을 어렵게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 사실 학습과 언어적 특성을 구별하도록 설계된 경량의 코퍼스 기반 평가 프레임워크인 '지식 유지(Knowledge Retention, KR) 테스트'를 소개합니다. KR-Test는 자동으로 생성된 대비 예시를 활용하여, 정답과 오답의 이어쓰기(continuation)에 대한 선호도를 측정하며, 별도의 명령어 튜닝이나 생성 디코딩 과정이 필요하지 않습니다. 우리는 '블라인드 vs. 오라클' 기준 분석을 통해 프레임워크의 신뢰성을 검증했습니다. 또한, 우리는 LoRA(Low-Rank Adaptation)의 훈련 과정을 분석하여 KR-Test의 진단 능력을 보여줍니다. KR-Test는 언어적 수렴과 지식 유지 간의 미묘한 차이를 드러내어, 미세 조정 과정의 해석 가능성을 향상시킵니다.
Supervised Fine-Tuning (SFT) is a standard approach for injecting domain knowledge into Large Language Models (LLMs). However, relying on validation perplexity to monitor training is often insufficient, as it confounds stylistic mimicry with genuine factual internalization. To address this, we introduce the Knowledge Retention (KR) Test , a lightweight, corpus-grounded evaluation framework designed to distinguish factual learning from linguistics. KR-Test utilizes automatically generated contrastive examples to measure likelihood preferences for correct versus incorrect continuations, requiring no instruction tuning or generative decoding. We validate the framework's integrity through a "blind vs. oracle" baseline analysis. Furthermore, we demonstrate the diagnostic capabilities of KR-Test by analyzing the training dynamics of Low-Rank Adaptation (LoRA). By exposing the fine-grained dissociation between linguistic convergence and knowledge retention, KR-Test enhances the interpretability of fine-tuning dynamics.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.