2603.25758v1 Mar 25, 2026 cs.CV

A-SelecT: 디퓨전 트랜스포머 표현 학습을 위한 자동 타임스텝 선택

A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning

Qifan Wang
Qifan Wang
Citations: 1,063
h-index: 18
Cheng Han
Cheng Han
University of Missouri-Kansas City
Citations: 750
h-index: 13
Dongfang Liu
Dongfang Liu
Citations: 327
h-index: 10
Changyu Liu
Changyu Liu
Citations: 6
h-index: 2
J. Liang
J. Liang
Citations: 764
h-index: 14
Wenhao Yang
Wenhao Yang
Citations: 86
h-index: 4
Yiming Cui
Yiming Cui
Citations: 1,394
h-index: 19
Jinghao Yang
Jinghao Yang
Citations: 3
h-index: 1
Tianyang Wang
Tianyang Wang
Citations: 3
h-index: 1

디퓨전 모델은 생성형 인공지능 분야에 큰 영향을 미쳤으며, 최근에는 판별적 표현 학습 능력을 갖춘 모델로도 활발히 연구되고 있습니다. 디퓨전 트랜스포머(DiT)는 기존 U-Net 기반 디퓨전 모델의 유망한 대안으로 떠오르며, 생성적 사전 학습을 통해 다양한 판별적 작업에 활용될 가능성을 보여줍니다. 그러나 현재 DiT의 학습 효율성과 표현 능력은 부적절한 타임스텝 탐색과 DiT 특유의 특징 표현 활용 부족으로 인해 제한적인 상황입니다. 이러한 문제점을 해결하기 위해, 우리는 자동으로 선택된 타임스텝(A-SelecT)을 제안합니다. A-SelecT는 단일 실행 내에서 DiT의 가장 유용한 정보가 담긴 타임스텝을 동적으로 파악하여, 계산 집약적인 모든 타임스텝 탐색 및 최적 이하의 판별적 특징 선택의 필요성을 없앱니다. 분류 및 분할 벤치마크에 대한 광범위한 실험 결과, A-SelecT를 통해 향상된 DiT는 기존의 모든 디퓨전 기반 모델보다 효율적이고 효과적으로 성능을 뛰어넘는 것으로 나타났습니다.

Original Abstract

Diffusion models have significantly reshaped the field of generative artificial intelligence and are now increasingly explored for their capacity in discriminative representation learning. Diffusion Transformer (DiT) has recently gained attention as a promising alternative to conventional U-Net-based diffusion models, demonstrating a promising avenue for downstream discriminative tasks via generative pre-training. However, its current training efficiency and representational capacity remain largely constrained due to the inadequate timestep searching and insufficient exploitation of DiT-specific feature representations. In light of this view, we introduce Automatically Selected Timestep (A-SelecT) that dynamically pinpoints DiT's most information-rich timestep from the selected transformer feature in a single run, eliminating the need for both computationally intensive exhaustive timestep searching and suboptimal discriminative feature selection. Extensive experiments on classification and segmentation benchmarks demonstrate that DiT, empowered by A-SelecT, surpasses all prior diffusion-based attempts efficiently and effectively.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!