TAG-MoE: 작업 인지 게이팅을 통한 통합 생성형 Mixture-of-Experts
TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts
통합 이미지 생성 및 편집 모델은 덴스 디퓨전 트랜스포머 아키텍처에서 심각한 작업 간섭 문제를 겪습니다. 이는 공유된 파라미터 공간이 상충하는 목표(예: 로컬 편집 vs. 객체 기반 생성) 사이에서 타협해야 하기 때문입니다. 희소 Mixture-of-Experts (MoE) 패러다임은 유망한 해결책이지만, 기존의 게이팅 네트워크는 작업에 대한 인식이 부족하며, 로컬 특징만을 기반으로 작동하여 전반적인 작업 의도를 파악하지 못합니다. 이러한 작업 독립적인 특성은 의미 있는 전문화를 방해하고 근본적인 작업 간섭 문제를 해결하지 못합니다. 본 논문에서는 MoE 라우팅에 의미론적 의도를 주입하는 새로운 프레임워크를 제안합니다. 우리는 계층적 작업 의미 주석 체계를 도입하여 구조화된 작업 설명자(예: 범위, 유형, 보존)를 생성합니다. 그런 다음, 내부 라우팅 결정을 작업의 고수준 의미론과 일치시키는 예측적 정렬 정규화를 설계합니다. 이 정규화는 게이팅 네트워크를 작업 독립적인 실행기에서 작업 중심의 분배 센터로 발전시킵니다. 제안하는 모델은 작업 간섭을 효과적으로 완화하며, 충실도와 품질 측면에서 덴스 모델을 능가하는 성능을 보입니다. 또한, 분석 결과 전문가들이 자연스럽게 명확하고 의미론적으로 연관된 전문화를 갖도록 발전하는 것을 확인했습니다.
Unified image generation and editing models suffer from severe task interference in dense diffusion transformers architectures, where a shared parameter space must compromise between conflicting objectives (e.g., local editing v.s. subject-driven generation). While the sparse Mixture-of-Experts (MoE) paradigm is a promising solution, its gating networks remain task-agnostic, operating based on local features, unaware of global task intent. This task-agnostic nature prevents meaningful specialization and fails to resolve the underlying task interference. In this paper, we propose a novel framework to inject semantic intent into MoE routing. We introduce a Hierarchical Task Semantic Annotation scheme to create structured task descriptors (e.g., scope, type, preservation). We then design Predictive Alignment Regularization to align internal routing decisions with the task's high-level semantics. This regularization evolves the gating network from a task-agnostic executor to a dispatch center. Our model effectively mitigates task interference, outperforming dense baselines in fidelity and quality, and our analysis shows that experts naturally develop clear and semantically correlated specializations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.