2604.25299v1 Apr 28, 2026 cs.CV

사고하는 픽셀: 다중 모드 확산 잠재 공간에서의 재귀적 희소 추론

The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents

Yuwei Sun
Yuwei Sun
Citations: 5
h-index: 2
Yuxuan Yao
Yuxuan Yao
Citations: 319
h-index: 6
Hui Li
Hui Li
Citations: 473
h-index: 5
Siyu Zhu
Siyu Zhu
Citations: 103
h-index: 6

확산 모델은 고품질 데이터 생성에 성공을 거두었지만, 텍스트 따르기 작업과 같은 더욱 복잡하고 구조화된 추론 능력은 여전히 제한적입니다. 언어 모델의 발전은 잠재 추론 및 재귀와 같은 전략을 활용하여 텍스트 이해 능력을 향상시켰지만, 이러한 기술을 다중 모드 텍스트-이미지 생성 작업에 적용하는 것은 시각 토큰의 연속적이고 이산적이지 않은 특성으로 인해 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 모듈식 인간 인지에서 영감을 받아 기존 확산 모델에 통합되는 재귀적이고 희소한 전문가 혼합 프레임워크를 제안합니다. 우리의 접근 방식은 합동 어텐션 레이어 내에 재귀적 구성 요소를 도입하여 여러 잠재 단계에 걸쳐 시각 토큰을 반복적으로 개선하는 동시에 희소한 신경 모듈 선택을 통해 효율적으로 매개변수를 공유합니다. 각 단계에서 게이팅 네트워크는 현재 시각 토큰, 확산 타임스텝 및 조건 정보에 따라 전문화된 신경 모듈을 동적으로 선택하도록 설계되었습니다. 클래스 조건부 ImageNet 이미지 생성 작업에 대한 종합적인 평가 및 GenEval 및 DPG 벤치마크에 대한 추가 연구는 제안된 방법이 모델의 이미지 생성 성능을 향상시키는 데 우수함을 보여줍니다.

Original Abstract

Diffusion models have achieved success in high-fidelity data synthesis, yet their capacity for more complex, structured reasoning like text following tasks remains constrained. While advances in language models have leveraged strategies such as latent reasoning and recursion to enhance text understanding capabilities, extending these to multimodal text-to-image generation tasks is challenging due to the continuous and non-discrete nature of visual tokens. To tackle this problem, we draw inspiration from modular human cognition and propose a recursive, sparse mixture-of-experts framework integrated into conventional diffusion models. Our approach introduces a recursive component within joint attention layers that iteratively refines visual tokens over multiple latent steps while efficiently sharing parameters via sparse selection of neural modules. At each step, a gating network is devised to dynamically select specialized neural modules, conditioned on the current visual tokens, the diffusion timestep, and the conditioning information. Comprehensive evaluation on class-conditioned ImageNet image generation tasks and additional studies on the GenEval and DPG benchmark demonstrate the superiority of the proposed method in enhancing model image generation performance.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!