2603.04158v1 Mar 04, 2026 cs.RO

GarmentPile++: 시각-언어 추론을 활용한 어포던스 기반의 복잡한 의류 검색

GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning

Tianxing Chen
Tianxing Chen
Citations: 387
h-index: 8
Mingleyang Li
Mingleyang Li
Citations: 0
h-index: 0
Yuran Wang
Yuran Wang
Citations: 67
h-index: 3
Zishun Shen
Zishun Shen
Citations: 0
h-index: 0
Ruihai Wu
Ruihai Wu
Citations: 4
h-index: 2
Hao Dong
Hao Dong
Citations: 242
h-index: 8
Jiaqi Liang
Jiaqi Liang
Citations: 8
h-index: 1
Yue Chen
Yue Chen
Citations: 110
h-index: 5
Haoran Lu
Haoran Lu
Citations: 169
h-index: 6

의류 조작은 가정용 로봇 분야에서 중요한 역할을 하기 때문에 많은 관심을 받고 있습니다. 하지만 기존의 대부분의 의류 조작 연구는 초기 상태가 단 하나의 의류로 구성되어 있다고 가정하는 반면, 실제 환경에서는 여러 개의 의류가 쌓여 있는 경우가 훨씬 더 흔합니다. 이러한 간극을 해소하기 위해, 우리는 안전하고 깔끔하게 의류를 검색하고, 한 번의 시도마다 정확히 하나의 의류만 검색하도록 보장하는 새로운 의류 검색 파이프라인을 제안합니다. 이를 통해 의류 접기, 걸기, 착용과 같은 후속 작업을 위한 견고한 기반을 마련할 수 있습니다. 우리의 파이프라인은 시각-언어 추론과 시각적 어포던스 인지 기술을 seamlessly 통합하여, VLMs의 고수준 추론 및 계획 능력을 활용하는 동시에 시각적 어포던스의 일반화 능력을 활용하여 저수준 동작을 수행합니다. 의류 더미 내에서 각 의류의 상태에 대한 VLM의 종합적인 이해를 높이기 위해, 시각적 분할 모델(SAM2)을 사용하여 의류 더미에 대한 객체 분할을 수행하여 VLM 기반 추론에 충분한 시각적 정보를 제공합니다. 또한, 초기 분할 결과가 최적이 아닌 경우를 해결하기 위한 마스크 미세 조정 메커니즘을 추가했습니다. 게다가, 크거나 긴 의류, 또는 잘못된 잡는 위치로 인한 과도한 의류 처짐과 같은 경우를 처리하기 위해, 이중 로봇 팔 협력 프레임워크를 사용합니다. 우리의 파이프라인은 실제 환경과 시뮬레이션 환경 모두에서 다양한 작업 및 다양한 시나리오에서 일관된 효과를 보여줍니다. 프로젝트 페이지: https://garmentpile2.github.io/.

Original Abstract

Garment manipulation has attracted increasing attention due to its critical role in home-assistant robotics. However, the majority of existing garment manipulation works assume an initial state consisting of only one garment, while piled garments are far more common in real-world settings. To bridge this gap, we propose a novel garment retrieval pipeline that can not only follow language instruction to execute safe and clean retrieval but also guarantee exactly one garment is retrieved per attempt, establishing a robust foundation for the execution of downstream tasks (e.g., folding, hanging, wearing). Our pipeline seamlessly integrates vision-language reasoning with visual affordance perception, fully leveraging the high-level reasoning and planning capabilities of VLMs alongside the generalization power of visual affordance for low-level actions. To enhance the VLM's comprehensive awareness of each garment's state within a garment pile, we employ visual segmentation model (SAM2) to execute object segmentation on the garment pile for aiding VLM-based reasoning with sufficient visual cues. A mask fine-tuning mechanism is further integrated to address scenarios where the initial segmentation results are suboptimal. In addition, a dual-arm cooperation framework is deployed to address cases involving large or long garments, as well as excessive garment sagging caused by incorrect grasping point determination, both of which are strenuous for a single arm to handle. The effectiveness of our pipeline are consistently demonstrated across diverse tasks and varying scenarios in both real-world and simulation environments. Project page: https://garmentpile2.github.io/.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!