2603.00607v1 Feb 28, 2026 cs.CV

IdGlow: 다중 피사체 생성을 위한 동적 ID 조절

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

Honghao Cai
Honghao Cai
Citations: 7
h-index: 2
Xiangyuan Wang
Xiangyuan Wang
Citations: 12
h-index: 2
Yu Bai
Yu Bai
Citations: 1
h-index: 1
Tianze Zhou
Tianze Zhou
Citations: 32
h-index: 3
Sijie Xu
Sijie Xu
Citations: 14
h-index: 2
Yuyang Hao
Yuyang Hao
Citations: 0
h-index: 0
Zezhou Cui
Zezhou Cui
Citations: 7
h-index: 2
Yuyuan Yang
Yuyuan Yang
Citations: 25
h-index: 1
Wei Zhu
Wei Zhu
Citations: 35
h-index: 4
Yibo Chen
Yibo Chen
Citations: 5
h-index: 2
Yao Hu
Yao Hu
Citations: 277
h-index: 5
Xu Tang
Xu Tang
Citations: 526
h-index: 7
Zhen Li
Zhen Li
Citations: 565
h-index: 1

다중 피사체 이미지 생성은 여러 참조 ID를 일관된 장면 내에서 완벽하게 조화시키는 것을 요구합니다. 그러나 기존 방법은 종종 경직된 공간 마스크나 국소적 어텐션에 의존하며, 특히 복잡한 구조 변형이 필요한 작업에서 "안정성-유연성 딜레마"에 어려움을 겪습니다. 예를 들어, ID를 유지하면서 나이를 변환하는 작업에서 어려움을 겪을 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 Flow Matching 확산 모델을 기반으로 하는 마스크가 필요 없는, 점진적인 2단계 프레임워크인 IdGlow를 제안합니다. 지도 미세 조정(SFT) 단계에서, 우리는 확산 생성 동역학에 맞춰 작업에 적응적인 타임스텝 스케줄링을 도입합니다. 이는 자연스러운 그룹 구성을 위해 점진적으로 제약을 완화하는 선형 감쇠 스케줄과, 중요한 의미 영역 내에서 ID 주입을 집중시키는 시간 게이팅 메커니즘을 포함합니다. 이를 통해 성인의 얼굴 특징을 유지하면서도 어린이의 해부학적 구조를 훼손하지 않습니다. 또한, 명시적인 레이아웃 입력 없이 속성 누수 및 의미적 모호성을 해결하기 위해, 상황에 맞는 정확한 프롬프트 생성을 위한 오류 사례 기반의 비전-언어 모델(VLM)을 통합했습니다. 두 번째 단계에서는, 다중 피사체 생성에서 발생하는 문제점을 줄이고, 텍스처 조화를 높이며, 실제 분포에 따른 ID 충실도를 재조정하기 위해, 가중치 마진 기반의 세분화된 그룹 레벨 직접 선호도 최적화(DPO)를 설계했습니다. 두 가지 어려운 벤치마크(직접 다인체 융합 및 나이 변환 그룹 생성)에 대한 광범위한 실험 결과, IdGlow가 안정성-유연성 간의 근본적인 충돌을 완화하고, 최첨단 얼굴 품질과 상업용 수준의 심미적 품질 간의 우수한 균형을 달성한다는 것을 보여줍니다.

Original Abstract

Multi-subject image generation requires seamlessly harmonizing multiple reference identities within a coherent scene. However, existing methods relying on rigid spatial masks or localized attention often struggle with the "stability-plasticity dilemma," particularly failing in tasks that require complex structural deformations, such as identity-preserving age transformation. To address this, we present IdGlow, a mask-free, progressive two-stage framework built upon Flow Matching diffusion models. In the supervised fine-tuning (SFT) stage, we introduce task-adaptive timestep scheduling aligned with diffusion generative dynamics: a linear decay schedule that progressively relaxes constraints for natural group composition, and a temporal gating mechanism that concentrates identity injection within a critical semantic window, successfully preserving adult facial semantics without overriding child-like anatomical structures. To resolve attribute leakage and semantic ambiguity without explicit layout inputs, we further integrate a badcase-driven Vision-Language Model (VLM) for precise, context-aware prompt synthesis. In the second stage, we design a Fine-Grained Group-Level Direct Preference Optimization (DPO) with a weighted margin formulation to simultaneously eliminate multi-subject artifacts, elevate texture harmony, and recalibrate identity fidelity towards real-world distributions. Extensive experiments on two challenging benchmarks -- direct multi-person fusion and age-transformed group generation -- demonstrate that IdGlow fundamentally mitigates the stability-plasticity conflict, achieving a superior Pareto balance between state-of-the-art facial fidelity and commercial-grade aesthetic quality.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!