2603.02760v1 Mar 03, 2026 cs.CL

시퀀스 재생을 통한 확산 언어 모델의 효율적인 자기 평가

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Jiaheng Zhang
Jiaheng Zhang
Citations: 145
h-index: 7
Linhao Zhong
Linhao Zhong
Citations: 8
h-index: 1
Wen Wang
Wen Wang
Citations: 712
h-index: 11
Yuling Xi
Yuling Xi
Citations: 20
h-index: 2
Chenchen Jing
Chenchen Jing
Citations: 130
h-index: 6
Chunhua Shen
Chunhua Shen
Citations: 899
h-index: 16
Linyu Wu
Linyu Wu
Citations: 1
h-index: 1
Hao Chen
Hao Chen
Citations: 418
h-index: 8

최근 확산 언어 모델(dLLM)은 다양성, 제어 가능성 및 병렬 처리 능력을 향상시키는 능력으로 인해 상당한 관심을 받고 있습니다. 그러나 dLLM의 비순차적이고 양방향 마스킹된 생성 방식은 품질 평가를 어렵게 만들며, 효과적인 자기 평가의 필요성을 강조합니다. 본 연구에서는 dLLM을 위한 간단하면서도 효과적인 자기 평가 신뢰도 측정 방법인 DiSE를 제안합니다. DiSE는 전체 생성 시퀀스 내의 토큰을 완전한 컨텍스트를 기반으로 재생할 확률을 계산하여 신뢰도를 정량화합니다. 이 방법은 토큰 재생 확률을 활용하여 보다 효율적이고 신뢰할 수 있는 품질 평가를 가능하게 하며, 가능성 추정 및 강력한 불확실성 정량화를 용이하게 합니다. DiSE를 기반으로, 모델이 자체 출력에 대한 자체 평가를 기반으로 시퀀스 길이를 적응적으로 제어하는 유연한 길이 생성 프레임워크를 추가로 소개합니다. 본 연구는 dLLM의 일반화 관점에서 DiSE의 실현 가능성을 분석하고 검증하며, 실험적으로 DiSE가 의미적 일관성과 답변 정확도와 긍정적인 상관관계를 가진다는 것을 입증합니다. 가능성 평가, 불확실성 정량화 및 유연한 길이 생성에 대한 광범위한 실험을 통해 제안된 DiSE의 효과를 더욱 뒷받침합니다.

Original Abstract

Diffusion large language models (dLLMs) have recently attracted significant attention for their ability to enhance diversity, controllability, and parallelism. However, their non-sequential, bidirectionally masked generation makes quality assessment difficult, underscoring the need for effective self-evaluation. In this work, we propose DiSE, a simple yet effective self-evaluation confidence quantification method for dLLMs. DiSE quantifies confidence by computing the probability of regenerating the tokens in the entire generated sequence, given the full context. This method enables more efficient and reliable quality assessment by leveraging token regeneration probabilities, facilitating both likelihood estimation and robust uncertainty quantification. Building upon DiSE, we further introduce a flexible-length generation framework, which adaptively controls the sequence length based on the model's self-assessment of its own output. We analyze and validate the feasibility of DiSE from the perspective of dLLM generalization, and empirically demonstrate that DiSE is positively correlated with both semantic coherence and answer accuracy. Extensive experiments on likelihood evaluation, uncertainty quantification, and flexible-length generation further confirm the effectiveness of the proposed DiSE.

0 Citations
0 Influential
8 Altmetric
40.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!