시간 경사 퍼터베이션 샘플링: 확산 언어 모델을 위한 다양한 텍스트 생성
Time-Annealed Perturbation Sampling: Diverse Generation for Diffusion Language Models
확산 언어 모델(Diffusion-LMs)은 텍스트 생성 과정에 명시적인 시간 차원을 도입하지만, 이 구조를 활용하여 다양한 유효한 의미 또는 추론 경로를 탐색하기 위한 생성 다양성을 제어하는 방법에 대한 연구는 아직 부족합니다. 본 논문에서는 확산 언어 모델이 이미지 생성 모델과 마찬가지로 시간 분업 현상을 보이며, 초기 디노이징 단계는 전반적인 의미 구조를 결정하는 반면, 후기 단계는 지역적인 어휘적 세분화에 집중한다는 것을 보여줍니다. 이러한 통찰력을 바탕으로, 본 논문에서는 학습이 필요 없는 추론 전략인 시간 경사 퍼터베이션 샘플링(Time-Annealed Perturbation Sampling, TAPS)을 제안합니다. TAPS는 확산 과정 초기에 의미 분기를 촉진하는 동시에, 유창성과 지시 사항 준수를 유지하기 위해 점진적으로 퍼터베이션을 줄입니다. TAPS는 비자동 회귀 및 준자동 회귀 확산 모델 모두에 적용 가능하며, 본 논문에서는 LLaDA 및 TraDo 모델을 사용하여 이를 입증했습니다. 실험 결과, TAPS는 창의적인 글쓰기 및 추론 벤치마크에서 생성 다양성을 지속적으로 향상시키면서도 생성 품질을 저하시키지 않습니다.
Diffusion language models (Diffusion-LMs) introduce an explicit temporal dimension into text generation, yet how this structure can be leveraged to control generation diversity for exploring multiple valid semantic or reasoning paths remains underexplored. In this paper, we show that Diffusion-LMs, like diffusion models in image generation, exhibit a temporal division of labor: early denoising steps largely determine the global semantic structure, while later steps focus on local lexical refinement. Building on this insight, we propose Time-Annealed Perturbation Sampling (TAPS), a training-free inference strategy that encourages semantic branching early in the diffusion process while progressively reducing perturbations to preserve fluency and instruction adherence. TAPS is compatible with both non-autoregressive and semi-autoregressive Diffusion backbones, demonstrated on LLaDA and TraDo in our paper, and consistently improves output diversity across creative writing and reasoning benchmarks without compromising generation quality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.