SkeleGuide: 문맥 인지 인간 이미지 합성에서 명시적인 골격 추론을 위한 방법
SkeleGuide: Explicit Skeleton Reasoning for Context-Aware Human-in-Place Image Synthesis
현재의 생성 모델은 현실적이고 구조적으로 타당한 인간 이미지를 기존 장면으로 생성하는 데 어려움을 겪고 있으며, 종종 왜곡된 팔다리나 부자연스러운 자세와 같은 문제를 야기합니다. 이러한 근본적인 실패는 인간 골격 구조에 대한 명시적인 추론 능력이 부족하기 때문이라고 판단됩니다. 이를 해결하기 위해, 우리는 명시적인 골격 추론을 기반으로 하는 새로운 프레임워크인 SkeleGuide를 제안합니다. SkeleGuide는 추론 단계와 렌더링 단계를 함께 학습하여, 강력한 구조적 사전 지식 역할을 하는 내부 자세를 생성하고, 이를 통해 높은 구조적 안정성을 갖는 이미지 합성을 유도합니다. 또한, 사용자가 세밀하게 제어할 수 있도록, 내부 잠재 자세를 명시적이고 편집 가능한 형식으로 변환하는 모듈인 PoseInverter를 도입했습니다. 광범위한 실험 결과, SkeleGuide는 특수 모델과 범용 모델 모두에서 고품질의 문맥 인지 인간 이미지를 생성하는 데 상당한 성능 향상을 보였습니다. 본 연구는 명시적으로 골격 구조를 모델링하는 것이 견고하고 타당한 인간 이미지 합성을 위한 필수적인 단계임을 보여주는 강력한 증거를 제공합니다.
Generating realistic and structurally plausible human images into existing scenes remains a significant challenge for current generative models, which often produce artifacts like distorted limbs and unnatural poses. We attribute this systemic failure to an inability to perform explicit reasoning over human skeletal structure. To address this, we introduce SkeleGuide, a novel framework built upon explicit skeletal reasoning. Through joint training of its reasoning and rendering stages, SkeleGuide learns to produce an internal pose that acts as a strong structural prior, guiding the synthesis towards high structural integrity. For fine-grained user control, we introduce PoseInverter, a module that decodes this internal latent pose into an explicit and editable format. Extensive experiments demonstrate that SkeleGuide significantly outperforms both specialized and general-purpose models in generating high-fidelity, contextually-aware human images. Our work provides compelling evidence that explicitly modeling skeletal structure is a fundamental step towards robust and plausible human image synthesis.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.