순서에 얽매이지 않는 사고: 디퓨전 언어 모델에서 출력 순서가 추론 순서를 반영하지 않을 때
Thinking Out of Order: When Output Order Stops Reflecting Reasoning Order in Diffusion Language Models
자기 회귀(AR) 언어 모델은 고정된 좌우 방향 생성 순서를 강제하여, 필요한 출력 구조가 자연스러운 추론과 충돌할 때 근본적인 제약을 야기합니다 (예: 프레젠테이션 또는 스키마 제약으로 인해 설명보다 먼저 답변을 생성하는 경우). 이러한 경우, AR 모델은 중간 추론을 생성하기 전에 답변을 먼저 결정해야 하며, 이러한 엄격한 제약은 성급한 결정을 강요합니다. 모든 토큰을 병렬로 반복적으로 개선하는 마스크된 디퓨전 언어 모델(MDLM)은 계산 순서와 출력 구조를 분리하는 방법을 제공합니다. 우리는 GSM8K, Math500, 그리고 우리가 제어된 난이도와 순서 수준 평가를 통해 도입한 벤치마크인 ReasonOrderQA에서 이러한 기능을 검증합니다. 프롬프트가 추론보다 먼저 답변을 요구할 때, AR 모델은 표준 연쇄적 사고(chain-of-thought) 순서와 비교하여 상당한 정확도 격차를 보입니다 (최대 67% 상대적 감소), 반면 MDLM은 안정적입니다 (≤14% 상대적 감소). 우리는 이를 "순서 강건성(order robustness)"이라고 명명합니다. ReasonOrderQA를 사용하여, MDLM이 복잡한 토큰(예: 최종 답변)보다 초기 디퓨전 과정에서 더 간단한 토큰(예: 추론 단계)을 먼저 안정화시켜 순서 강건성을 달성한다는 증거를 제시합니다. 이를 통해 추론 토큰이 답변 결정 전에 안정화될 수 있습니다. 마지막으로, 이러한 장점이 약화되는 실패 조건을 식별하고, 순서 강건성을 위한 제한 사항을 설명합니다.
Autoregressive (AR) language models enforce a fixed left-to-right generation order, creating a fundamental limitation when the required output structure conflicts with natural reasoning (e.g., producing answers before explanations due to presentation or schema constraints). In such cases, AR models must commit to answers before generating intermediate reasoning, and this rigid constraint forces premature commitment. Masked diffusion language models (MDLMs), which iteratively refine all tokens in parallel, offer a way to decouple computation order from output structure. We validate this capability on GSM8K, Math500, and ReasonOrderQA, a benchmark we introduce with controlled difficulty and order-level evaluation. When prompts request answers before reasoning, AR models exhibit large accuracy gaps compared to standard chain-of-thought ordering (up to 67% relative drop), while MDLMs remain stable ($\leq$14% relative drop), a property we term "order robustness". Using ReasonOrderQA, we present evidence that MDLMs achieve order robustness by stabilizing simpler tokens (e.g., reasoning steps) earlier in the diffusion process than complex ones (e.g., final answers), enabling reasoning tokens to stabilize before answer commitment. Finally, we identify failure conditions where this advantage weakens, outlining the limits required for order robustness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.