확산 모델의 일관성에 대한 랜덤 행렬 이론적 관점
A Random Matrix Theory Perspective on the Consistency of Diffusion Models
서로 다른, 겹치지 않는 데이터 세트의 부분 집합으로 학습된 확산 모델은 동일한 노이즈 시드를 입력받을 때 놀랍도록 유사한 결과를 생성하는 경우가 많습니다. 우리는 이러한 일관성을 단순한 선형 효과로 설명합니다. 즉, 분할된 데이터 세트 간에 공유되는 가우시안 통계량이 생성된 이미지의 상당 부분을 예측합니다. 이를 형식화하기 위해, 우리는 랜덤 행렬 이론(RMT) 프레임워크를 개발하여 유한한 데이터 세트가 선형 환경에서 학습된 디노이징 함수와 샘플링 맵의 기대값과 분산을 어떻게 형성하는지 정량화합니다. 기대값의 경우, 샘플링 변동성은 자기 일관적인 관계 $σ^2 ightarrow κ(σ^2)$를 통해 노이즈 레벨의 재정규화 역할을 하며, 이는 제한된 데이터가 낮은 분산 방향을 과도하게 축소시키고 샘플을 데이터 세트의 평균으로 끌어당기는 이유를 설명합니다. 분산의 경우, 우리의 공식은 교차 분할 간의 불일치 뒤에 숨겨진 세 가지 주요 요인을 밝혀냅니다. 즉, 고유 모드 간의 extit{이방성}, 입력 간의 extit{불균일성}, 그리고 전체 데이터 세트 크기에 따른 스케일링입니다. 결정론적 동등성 도구를 분수 행렬 거듭제곱으로 확장함으로써, 전체 샘플링 궤적을 분석할 수 있습니다. 이 이론은 선형 확산 모델의 동작을 명확하게 예측하며, UNet 및 DiT 아키텍처에서 비-기억화(non-memorization) 모드에서 이 예측을 검증하여, 훈련 데이터 분할에 따라 샘플이 어디에서 어떻게 달라지는지 식별합니다. 이는 확산 모델 훈련의 재현성을 위한 원칙적인 기준을 제공하며, 데이터의 스펙트럴 특성을 생성된 출력의 안정성과 연결합니다.
Diffusion models trained on different, non-overlapping subsets of a dataset often produce strikingly similar outputs when given the same noise seed. We trace this consistency to a simple linear effect: the shared Gaussian statistics across splits already predict much of the generated images. To formalize this, we develop a random matrix theory (RMT) framework that quantifies how finite datasets shape the expectation and variance of the learned denoiser and sampling map in the linear setting. For expectations, sampling variability acts as a renormalization of the noise level through a self-consistent relation $σ^2 \mapsto κ(σ^2)$, explaining why limited data overshrink low-variance directions and pull samples toward the dataset mean. For fluctuations, our variance formulas reveal three key factors behind cross-split disagreement: \textit{anisotropy} across eigenmodes, \textit{inhomogeneity} across inputs, and overall scaling with dataset size. Extending deterministic-equivalence tools to fractional matrix powers further allows us to analyze entire sampling trajectories. The theory sharply predicts the behavior of linear diffusion models, and we validate its predictions on UNet and DiT architectures in their non-memorization regime, identifying where and how samples deviates across training data split. This provides a principled baseline for reproducibility in diffusion training, linking spectral properties of data to the stability of generative outputs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.