2602.06161v1 Feb 05, 2026 cs.CL

플립플랍 현상 방지: 빠른 역추적 확산 디코딩을 위한 문맥 보존 검증

Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding

P. Teare
P. Teare
Citations: 78
h-index: 5
Dandan Zhang
Dandan Zhang
Citations: 5
h-index: 1
Qinglin Zhu
Qinglin Zhu
Citations: 18
h-index: 2
Lin Gui
Lin Gui
Citations: 282
h-index: 11
Yanzheng Xiang
Yanzheng Xiang
Citations: 128
h-index: 6
Lan Wei
Lan Wei
Citations: 1
h-index: 1
Yizhen Yao
Yizhen Yao
Citations: 6
h-index: 1
Hanqi Yan
Hanqi Yan
King's College London
Citations: 420
h-index: 11
Chen Jin
Chen Jin
Citations: 67
h-index: 3
Amrutha Saseendran
Amrutha Saseendran
Citations: 69
h-index: 5
Yulan He
Yulan He
Citations: 157
h-index: 5

병렬 확산 디코딩은 한 단계마다 여러 토큰을 마스크 해제하여 확산 언어 모델 추론 속도를 높일 수 있지만, 공격적인 병렬화는 종종 품질 저하를 초래합니다. 역추적 디코딩은 이전 토큰을 재검토하여 이러한 문제를 완화하지만, 기존 검증 방식은 종종 '플립플랍' 현상을 유발하여 토큰이 반복적으로 마스크 처리되고 다시 복원되는 현상이 나타납니다. 이러한 현상은 추론 속도를 두 가지 방식으로 늦춥니다. 먼저, 검증된 위치의 마스크 처리는 병렬 작성을 위한 조건부 문맥을 약화시키고, 두 번째로, 반복적인 마스크 처리 사이클은 수정 예산을 소모하지만 실질적인 진전은 거의 없습니다. 본 논문에서는 단일 순방향 패스 내에서 누락된 값 검증(Leave-one-out verification)과 안정적인 작성을 수행하는 COVER(Cache Override Verification for Efficient Revision)를 제안합니다. COVER는 KV 캐시 오버라이드를 통해 두 가지 어텐션 뷰를 구성합니다. 선택된 시드 토큰은 검증을 위해 마스크 처리되지만, 다른 모든 쿼리에 대해서는 해당 토큰의 캐시된 키-값 상태가 주입되어 문맥 정보를 보존합니다. 또한, 시드 위치에서의 자기 유출을 방지하는 닫힌 형태의 대각선 보정이 적용됩니다. COVER는 불확실성, 다운스트림 영향 및 캐시 드리프트를 균형 있게 고려하는 안정성 인지 점수를 사용하여 시드 토큰의 우선순위를 결정하고, 단계별로 검증되는 시드 토큰의 수를 조정합니다. 실험 결과, COVER는 불필요한 수정 횟수를 현저히 줄이고, 출력 품질을 유지하면서 더 빠른 디코딩 성능을 달성했습니다.

Original Abstract

Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.

1 Citations
0 Influential
5.5 Altmetric
28.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!