언어 확산 모델은 미지의 데이터를 검색할 수 있는 연관 기억 장치이다
Language Diffusion Models are Associative Memories Capable of Retrieving Unseen Data
언어 확산 모델이 언제 학습 데이터를 암기하는가? 그리고 생성 모델의 실제 작동 방식을 어떻게 정량적으로 평가할 수 있는가? 우리는 이 질문에 대한 답을 제시하며, Uniform-based Discrete Diffusion Models (UDDMs)가 근본적으로 연관 기억 장치(Associative Memories, AMs)로서 작동하며, 동시에 창의적인 능력을 갖춘다는 것을 보여준다. 연관 기억 장치의 핵심 아이디어는 저장된 데이터 포인트를 안정적인 끌림 영역(basins of attraction)을 설정하여 '기억'으로 안정적으로 복원하는 것이다. 역사적으로, Hopfield 네트워크와 같은 모델들은 이러한 안정적인 끌림 영역을 보장하기 위해 명시적인 에너지 함수를 사용한다. 우리는 에너지 자체가 반드시 필요하지 않다는 점을 강조하며, 조건부 확률 최대화를 통해 끌림 영역을 형성할 수 있다는 점을 활용한다. 학습 데이터와 테스트 데이터 예제의 토큰 복구 성능을 평가하여, UDDMs에서 학습 데이터셋의 크기에 따라 뚜렷한 암기-일반화 전환(memorization-to-generalization transition)이 발생한다는 것을 확인했다. 학습 데이터셋의 크기가 증가함에 따라, 학습 예제 주변의 끌림 영역은 줄어들고, 미지의 테스트 예제 주변의 끌림 영역은 확장되며, 결국 두 영역이 동일한 수준으로 수렴한다. 중요한 점은 이 전환을 예측된 토큰 시퀀스의 조건부 엔트로피만으로 감지할 수 있다는 것이다. 암기 단계에서는 조건부 엔트로피가 0에 가까워지는 반면, 일반화 단계에서는 대부분의 토큰에 대해 조건부 엔트로피가 유한한 값을 유지한다. 따라서 조건부 엔트로피는 배포된 모델에서 암기-일반화 전환을 평가하는 실용적인 지표를 제공한다.
When do language diffusion models memorize their training data, and how to quantitatively assess their true generative regime? We address these questions by showing that Uniform-based Discrete Diffusion Models (UDDMs) fundamentally behave as Associative Memories (AMs) $\textit{with emergent creative capabilities}$. The core idea of an AM is to reliably recover stored data points as $\textit{memories}$ by establishing distinct basins of attraction around them. Historically, models like Hopfield networks use an explicit energy function to guarantee these stable attractors. We broaden this perspective by leveraging the observation that energy is not strictly necessary, as basins of attraction can also be formed via conditional likelihood maximization. By evaluating token recovery of $\textit{training}$ and $\textit{test}$ examples, we identify in UDDMs a sharp memorization-to-generalization transition governed by the size of the training dataset: as it increases, basins around training examples shrink and basins around unseen test examples expand, until both later converge to the same level. Crucially, we can detect this transition using only the conditional entropy of predicted token sequences: memorization is characterized by vanishing conditional entropy, while in the generalization regime the conditional entropy of most tokens remains finite. Thus, conditional entropy offers a practical probe for the memorization-to-generalization transition in deployed models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.