UniT: 통합 멀티모달 사고 사슬 테스트 타임 스케일링
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
통합 모델은 단일 아키텍처 내에서 멀티모달 이해와 생성을 모두 처리할 수 있지만, 일반적으로 출력을 반복적으로 개선하는 과정 없이 단일 패스로 작동합니다. 많은 멀티모달 작업, 특히 복잡한 공간적 구성, 상호작용하는 다수의 객체 또는 점진적으로 변화하는 지시 사항이 포함된 작업은 지시 사항 분해, 중간 결과 검증 및 반복적인 수정 과정을 필요로 합니다. 테스트 타임 스케일링(TTS)은 반복적 추론에 추가적인 추론 연산 자원을 할당함으로써 언어 모델의 성능을 크게 향상시킬 수 있음을 보여주었으나, 이러한 패러다임을 통합 멀티모달 모델로 확장하는 것은 여전히 미해결 과제로 남아 있습니다. 본 논문에서는 단일 통합 모델이 여러 라운드에 걸쳐 추론, 검증 및 개선을 수행할 수 있도록 지원하는 멀티모달 사고 사슬(chain-of-thought) 테스트 타임 스케일링 프레임워크인 UniT를 소개합니다. UniT는 에이전트 기반 데이터 합성, 통합 모델 학습 및 유연한 테스트 타임 추론을 결합하여 검증, 하위 목표 분해, 콘텐츠 기억과 같은 인지적 행동을 유도합니다. 본 연구의 주요 발견은 다음과 같습니다: (1) 짧은 추론 궤적으로 학습된 통합 모델은 테스트 시 더 긴 추론 사슬로 일반화됩니다. (2) 순차적인 사고 사슬 추론은 병렬 샘플링보다 더 뛰어난 확장성과 연산 효율성을 갖춘 TTS 전략을 제공합니다. (3) 생성 및 편집 궤적에 대한 학습은 분포 외(out-of-distribution) 시각적 추론 능력을 향상시킵니다. 이러한 결과는 멀티모달 테스트 타임 스케일링이 통합 모델의 생성 및 이해 능력을 모두 발전시키기 위한 효과적인 패러다임임을 입증합니다.
Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.