2602.01608v1 Feb 02, 2026 cs.AI

자기회귀-확산 협력적 사고(Collaborative Thoughts)를 활용한 추론

Reasoning with Autoregressive-Diffusion Collaborative Thoughts

Guoliang Xing
Guoliang Xing
Citations: 10
h-index: 2
Mu Yuan
Mu Yuan
Citations: 1
h-index: 1
Liekang Zeng
Liekang Zeng
Citations: 30
h-index: 2
Lan Zhang
Lan Zhang
Citations: 32
h-index: 3
Yunhao Liu
Yunhao Liu
Citations: 13
h-index: 2

자기회귀(Autoregressive) 모델과 확산(Diffusion) 모델은 상호 보완적인 두 가지 생성 패러다임을 대표합니다. 자기회귀 모델은 순차적 계획 수립 및 제약 조건 구성에 탁월하지만, 명시적인 공간적 또는 물리적 기반이 필요한 작업에서는 어려움을 겪습니다. 반면, 확산 모델은 고차원 생성을 통해 풍부한 공간적 구조를 포착하지만, 복잡한 다단계 제약 조건을 충족하거나 오류를 확실하게 식별하고 수정하는 데 필요한 단계별 논리적 제어 능력이 부족합니다. 본 논문에서는 폐루프(closed-loop) 상호작용을 통해 자기회귀 모델과 확산 모델이 공동으로 추론하고 생성할 수 있도록 하는 통합 협력 프레임워크인 'Collaborative Thoughts'를 소개합니다. Collaborative Thoughts에서 자기회귀 모델은 구조화된 계획 수립 및 제약 조건 관리를 수행하고, 확산 모델은 이러한 제약 조건을 중간 시각적 사고(visual thoughts)로 구현하며, 비전 기반 비평(critic) 모듈은 이 시각적 사고가 의도한 구조적 및 물리적 요구 사항을 충족하는지 평가합니다. 이러한 피드백은 후속 계획 및 생성 단계를 반복적으로 정제하는 데 사용되며, 모달리티 간의 오류 전파를 완화합니다. 중요한 점은, Collaborative Thoughts는 작업이 자기회귀적 질의응답이든 확산 기반 시각적 생성이든 관계없이 동일한 협력 루프를 사용한다는 것입니다. 대표적인 예시들을 통해, 우리는 Collaborative Thoughts가 공간적 추론의 신뢰성과 생성의 제어 가능성을 어떻게 향상시킬 수 있는지 보여줍니다.

Original Abstract

Autoregressive and diffusion models represent two complementary generative paradigms. Autoregressive models excel at sequential planning and constraint composition, yet struggle with tasks that require explicit spatial or physical grounding. Diffusion models, in contrast, capture rich spatial structure through high-dimensional generation, but lack the stepwise logical control needed to satisfy complex, multi-stage constraints or to reliably identify and correct errors. We introduce Collaborative Thoughts, a unified collaborative framework that enables autoregressive and diffusion models to reason and generate jointly through a closed-loop interaction. In Collaborative Thoughts, autoregressive models perform structured planning and constraint management, diffusion models instantiate these constraints as intermediate visual thoughts, and a vision-based critic module evaluates whether the visual thoughts satisfy the intended structural and physical requirements. This feedback is then used to iteratively refine subsequent planning and generation steps, mitigating error propagation across modalities. Importantly, Collaborative Thoughts uses the same collaborative loop regardless of whether the task is autoregressive question answering or diffusion-based visual generation. Through representative examples, we illustrate how Collaborative Thoughts can improve the reliability of spatial reasoning and the controllability of generation.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!