InfBaGel: 동적 인식과 반복적 개선을 통한 인간-객체-장면 상호작용 생성
InfBaGel: Human-Object-Scene Interaction Generation with Dynamic Perception and Iterative Refinement
인간-객체-장면 상호작용(HOSI) 생성은 임베디드 AI, 시뮬레이션 및 애니메이션 분야에서 광범위하게 활용됩니다. 인간-객체 상호작용(HOI) 및 인간-장면 상호작용(HSI)과는 달리, HOSI 생성은 동적인 객체-장면 변화에 대한 추론을 필요로 하지만, 제한된 주석 데이터라는 문제가 있습니다. 이러한 문제점을 해결하기 위해, 우리는 일관성 모델의 반복적 노이즈 제거 과정과 명시적으로 연계된, 거칠기에서 세밀함으로 이어지는 지시 기반 상호작용 생성 프레임워크를 제안합니다. 특히, 우리는 이전 개선 단계에서 얻은 궤적 정보를 활용하여 장면 컨텍스트를 업데이트하고, 일관성 모델의 각 노이즈 제거 단계에서 후속 개선을 조건부로 적용하는 동적 인식 전략을 채택하여 일관성 있는 상호작용을 생성합니다. 또한, 물리적인 오류를 줄이기 위해, 세밀한 장면 기하 정보 없이도 충돌 및 관통 현상을 완화하는 덩어리 감지 기반 가이드랜스를 도입하여 실시간 생성이 가능하도록 합니다. 데이터 부족 문제를 해결하기 위해, 우리는 3D 볼륨 데이터를 HOI 데이터 세트에 주입하여 가짜 HOSI 샘플을 합성하고, 고품질 HSI 데이터와 함께 공동으로 학습하는 하이브리드 학습 전략을 설계하여, 현실적인 장면 인식을 유지하면서 상호작용 학습을 가능하게 합니다. 광범위한 실험 결과, 저희 방법이 HOSI 및 HOI 생성 모두에서 최첨단 성능을 달성하며, 새로운 장면에서도 강력한 일반화 성능을 보임을 입증했습니다. 프로젝트 페이지: https://yudezou.github.io/InfBaGel-page/
Human-object-scene interactions (HOSI) generation has broad applications in embodied AI, simulation, and animation. Unlike human-object interaction (HOI) and human-scene interaction (HSI), HOSI generation requires reasoning over dynamic object-scene changes, yet suffers from limited annotated data. To address these issues, we propose a coarse-to-fine instruction-conditioned interaction generation framework that is explicitly aligned with the iterative denoising process of a consistency model. In particular, we adopt a dynamic perception strategy that leverages trajectories from the preceding refinement to update scene context and condition subsequent refinement at each denoising step of consistency model, yielding consistent interactions. To further reduce physical artifacts, we introduce a bump-aware guidance that mitigates collisions and penetrations during sampling without requiring fine-grained scene geometry, enabling real-time generation. To overcome data scarcity, we design a hybrid training startegy that synthesizes pseudo-HOSI samples by injecting voxelized scene occupancy into HOI datasets and jointly trains with high-fidelity HSI data, allowing interaction learning while preserving realistic scene awareness. Extensive experiments demonstrate that our method achieves state-of-the-art performance in both HOSI and HOI generation, and strong generalization to unseen scenes. Project page: https://yudezou.github.io/InfBaGel-page/
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.