2602.19565v1 Feb 23, 2026 cs.CV

DICArt: 이산 상태 공간에서의 범주 수준 관절 객체 자세 추정 방법 개선

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

Li Zhang
Li Zhang
Citations: 11
h-index: 1
Mingyu Mei
Mingyu Mei
Citations: 4
h-index: 1
Ailin Wang
Ailin Wang
Citations: 18
h-index: 1
Xianhui Meng
Xianhui Meng
Citations: 11
h-index: 2
Xinyuan Song
Xinyuan Song
Citations: 2
h-index: 1
Liu Liu
Liu Liu
Citations: 83
h-index: 5
Rujing Wang
Rujing Wang
Citations: 39
h-index: 4
Zaixing He
Zaixing He
Citations: 927
h-index: 18
Yan Zhong
Yan Zhong
Citations: 29
h-index: 3
Cewu Lu
Cewu Lu
Citations: 1,288
h-index: 4

관절 객체 자세 추정은 임베디드 AI의 핵심 과제입니다. 기존 방법들은 일반적으로 연속적인 공간에서 자세를 추정하지만, 종종 다음과 같은 어려움을 겪습니다: 1) 매우 크고 복잡한 탐색 공간을 탐색하는 것, 2) 내재된 운동학적 제약을 반영하지 못하는 것. 본 연구에서는 DICArt (DIsCrete Diffusion for Articulation Pose Estimation)라는 새로운 프레임워크를 소개합니다. DICArt는 자세 추정을 조건부 이산 확산 과정으로 정의합니다. DICArt는 연속적인 영역에서 작동하는 대신, 학습된 역확산 절차를 통해 잡음이 많은 자세 표현을 점진적으로 정제하여 실제(GT) 자세를 복원합니다. 모델링의 정확성을 향상시키기 위해, 각 토큰을 정제하거나 재설정할지 동적으로 결정하는 유연한 플로우 디사이더를 제안합니다. 이를 통해 확산 과정 동안 실제 분포와 잡음 분포 간의 균형을 효과적으로 유지합니다. 또한, 객체의 운동학적 구조를 고려하기 위해 계층적인 운동학적 결합 전략을 사용하여 각 강체 부분의 자세를 계층적으로 추정합니다. DICArt는 합성 데이터셋과 실제 데이터셋 모두에서 검증되었습니다. 실험 결과는 DICArt가 우수한 성능과 견고성을 갖는다는 것을 보여줍니다. DICArt는 이산 생성 모델링과 구조적 사전 지식을 통합하여 복잡한 환경에서 신뢰할 수 있는 범주 수준 6D 자세 추정을 위한 새로운 패러다임을 제시합니다.

Original Abstract

Articulated object pose estimation is a core task in embodied AI. Existing methods typically regress poses in a continuous space, but often struggle with 1) navigating a large, complex search space and 2) failing to incorporate intrinsic kinematic constraints. In this work, we introduce DICArt (DIsCrete Diffusion for Articulation Pose Estimation), a novel framework that formulates pose estimation as a conditional discrete diffusion process. Instead of operating in a continuous domain, DICArt progressively denoises a noisy pose representation through a learned reverse diffusion procedure to recover the GT pose. To improve modeling fidelity, we propose a flexible flow decider that dynamically determines whether each token should be denoised or reset, effectively balancing the real and noise distributions during diffusion. Additionally, we incorporate a hierarchical kinematic coupling strategy, estimating the pose of each rigid part hierarchically to respect the object's kinematic structure. We validate DICArt on both synthetic and real-world datasets. Experimental results demonstrate its superior performance and robustness. By integrating discrete generative modeling with structural priors, DICArt offers a new paradigm for reliable category-level 6D pose estimation in complex environments.

1 Citations
0 Influential
9 Altmetric
46.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!