유연성의 함정: 임의적인 순서 제한이 확산 언어 모델의 추론 잠재력을 저해하는 이유
The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
확산 대규모 언어 모델(dLLMs)은 기존 LLM의 엄격한 좌우 방향 제약을 벗어나 토큰을 임의의 순서로 생성할 수 있도록 합니다. 직관적으로 이러한 유연성은 고정된 자기 회귀 경로보다 더 넓은 해결 공간을 제공하여 수학 및 코딩과 같은 일반적인 작업에 대한 우수한 추론 잠재력을 발휘할 수 있을 것으로 예상됩니다. 결과적으로, 많은 연구에서 강화 학습(RL)을 사용하여 dLLM의 추론 능력을 향상시키려고 노력했습니다. 본 논문에서는 예상에 어긋나는 현실을 밝히고자 합니다. 즉, 현재 형태의 임의적인 순서 생성은 dLLM의 추론 범위를 확장하는 것이 아니라 오히려 축소합니다. 우리는 dLLM이 탐색에 중요한 고불확실성 토큰을 회피하기 위해 이러한 순서 유연성을 활용하는 경향이 있으며, 이로 인해 해결 공간이 조기에 붕괴되는 것을 확인했습니다. 이러한 관찰은 dLLM을 위한 RL 접근 방식에 대한 재고를 촉구합니다. 기존 방식은 조합 경로 처리 및 불가능한 가능성 계산과 같은 상당한 복잡성을 가지며, 이러한 복잡성은 이 유연성을 유지하는 데 집중되어 있습니다. 우리는 의도적으로 임의적인 순서를 포기하고 표준 그룹 상대 정책 최적화(GRPO)를 적용하는 것이 효과적인 추론을 더 잘 이끌어낼 수 있음을 보여줍니다. 우리의 접근 방식인 JustGRPO는 간결하지만 놀라울 정도로 효과적입니다(예: GSM8K에서 89.1%의 정확도)이면서 dLLM의 병렬 디코딩 기능을 완전히 유지합니다. 프로젝트 페이지: https://nzl-thu.github.io/the-flexibility-trap
Diffusion Large Language Models (dLLMs) break the rigid left-to-right constraint of traditional LLMs, enabling token generation in arbitrary orders. Intuitively, this flexibility implies a solution space that strictly supersets the fixed autoregressive trajectory, theoretically unlocking superior reasoning potential for general tasks like mathematics and coding. Consequently, numerous works have leveraged reinforcement learning (RL) to elicit the reasoning capability of dLLMs. In this paper, we reveal a counter-intuitive reality: arbitrary order generation, in its current form, narrows rather than expands the reasoning boundary of dLLMs. We find that dLLMs tend to exploit this order flexibility to bypass high-uncertainty tokens that are crucial for exploration, leading to a premature collapse of the solution space. This observation motivates a rethink of RL approaches for dLLMs, where considerable complexities, such as handling combinatorial trajectories and intractable likelihoods, are often devoted to preserving this flexibility. We demonstrate that effective reasoning can be better elicited by intentionally forgoing arbitrary order and applying standard Group Relative Policy Optimization (GRPO) instead. Our approach, JustGRPO, is minimalist yet surprisingly effective (e.g., 89.1% accuracy on GSM8K) while fully retaining the parallel decoding ability of dLLMs. Project page: https://nzl-thu.github.io/the-flexibility-trap
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.