GarmentPile++: 시각-언어 추론을 활용한 어포던스 기반의 복잡한 의류 검색
GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning
의류 조작은 가정용 로봇 분야에서 중요한 역할을 하기 때문에 많은 관심을 받고 있습니다. 하지만 기존의 대부분의 의류 조작 연구는 초기 상태가 단 하나의 의류로 구성되어 있다고 가정하는 반면, 실제 환경에서는 여러 개의 의류가 쌓여 있는 경우가 훨씬 더 흔합니다. 이러한 간극을 해소하기 위해, 우리는 안전하고 깔끔하게 의류를 검색하고, 한 번의 시도마다 정확히 하나의 의류만 검색하도록 보장하는 새로운 의류 검색 파이프라인을 제안합니다. 이를 통해 의류 접기, 걸기, 착용과 같은 후속 작업을 위한 견고한 기반을 마련할 수 있습니다. 우리의 파이프라인은 시각-언어 추론과 시각적 어포던스 인지 기술을 seamlessly 통합하여, VLMs의 고수준 추론 및 계획 능력을 활용하는 동시에 시각적 어포던스의 일반화 능력을 활용하여 저수준 동작을 수행합니다. 의류 더미 내에서 각 의류의 상태에 대한 VLM의 종합적인 이해를 높이기 위해, 시각적 분할 모델(SAM2)을 사용하여 의류 더미에 대한 객체 분할을 수행하여 VLM 기반 추론에 충분한 시각적 정보를 제공합니다. 또한, 초기 분할 결과가 최적이 아닌 경우를 해결하기 위한 마스크 미세 조정 메커니즘을 추가했습니다. 게다가, 크거나 긴 의류, 또는 잘못된 잡는 위치로 인한 과도한 의류 처짐과 같은 경우를 처리하기 위해, 이중 로봇 팔 협력 프레임워크를 사용합니다. 우리의 파이프라인은 실제 환경과 시뮬레이션 환경 모두에서 다양한 작업 및 다양한 시나리오에서 일관된 효과를 보여줍니다. 프로젝트 페이지: https://garmentpile2.github.io/.
Garment manipulation has attracted increasing attention due to its critical role in home-assistant robotics. However, the majority of existing garment manipulation works assume an initial state consisting of only one garment, while piled garments are far more common in real-world settings. To bridge this gap, we propose a novel garment retrieval pipeline that can not only follow language instruction to execute safe and clean retrieval but also guarantee exactly one garment is retrieved per attempt, establishing a robust foundation for the execution of downstream tasks (e.g., folding, hanging, wearing). Our pipeline seamlessly integrates vision-language reasoning with visual affordance perception, fully leveraging the high-level reasoning and planning capabilities of VLMs alongside the generalization power of visual affordance for low-level actions. To enhance the VLM's comprehensive awareness of each garment's state within a garment pile, we employ visual segmentation model (SAM2) to execute object segmentation on the garment pile for aiding VLM-based reasoning with sufficient visual cues. A mask fine-tuning mechanism is further integrated to address scenarios where the initial segmentation results are suboptimal. In addition, a dual-arm cooperation framework is deployed to address cases involving large or long garments, as well as excessive garment sagging caused by incorrect grasping point determination, both of which are strenuous for a single arm to handle. The effectiveness of our pipeline are consistently demonstrated across diverse tasks and varying scenarios in both real-world and simulation environments. Project page: https://garmentpile2.github.io/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.