2603.28333v1 Mar 30, 2026 cs.CV

다중 모드 대규모 언어 모델 지식을 활용한 부분 가려짐 영역 완성

Integrating Multimodal Large Language Model Knowledge into Amodal Completion

Eunho Yang
Eunho Yang
Citations: 180
h-index: 6
Heecheol Yun
Heecheol Yun
Citations: 6
h-index: 2

자율 주행 차량 및 로봇 기술의 광범위한 보급과 함께, 이미지 내에서 가려진 사람 및 객체의 부분을 재구성하는 '부분 가려짐 영역 완성' 기술은 점점 더 중요해지고 있습니다. 인간이 과거 경험과 상식을 바탕으로 숨겨진 영역을 추론하는 것처럼, 이 작업은 실제 객체에 대한 물리적 지식을 내재적으로 필요로 합니다. 그러나 기존 접근 방식은 시각 생성 모델의 이미지 생성 능력에만 의존하는 경우가 많으며, 이러한 지식이 부족하거나, 지식을 활용하더라도 분할 단계에서만 활용하여 완성 과정을 명시적으로 안내하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 다중 모드 대규모 언어 모델(MLLM)의 실제 세계 지식을 활용하여 부분 가려짐 영역 완성을 안내하는 새로운 프레임워크인 AmodalCG를 제안합니다. 우리의 프레임워크는 먼저 가려짐 정도를 평가하여 대상 객체가 심하게 가려진 경우에만 MLLM의 안내를 선택적으로 활용합니다. 안내가 필요한 경우, 프레임워크는 MLLM을 활용하여 (1) 누락된 영역의 범위와 (2) 내용에 대해 추론합니다. 마지막으로, 시각 생성 모델은 이러한 안내를 통합하고, 부정확한 MLLM 안내로 인해 발생할 수 있는 불완전한 결과를 반복적으로 개선합니다. 다양한 실제 이미지에 대한 실험 결과는 기존 연구에 비해 상당한 성능 향상을 보여주며, MLLM이 어려운 부분 가려짐 영역 완성 문제를 해결하는 데 유망한 방향임을 시사합니다.

Original Abstract

With the widespread adoption of autonomous vehicles and robotics, amodal completion, which reconstructs the occluded parts of people and objects in an image, has become increasingly crucial. Just as humans infer hidden regions based on prior experience and common sense, this task inherently requires physical knowledge about real-world entities. However, existing approaches either depend solely on the image generation ability of visual generative models, which lack such knowledge, or leverage it only during the segmentation stage, preventing it from explicitly guiding the completion process. To address this, we propose AmodalCG, a novel framework that harnesses the real-world knowledge of Multimodal Large Language Models (MLLMs) to guide amodal completion. Our framework first assesses the extent of occlusion to selectively invoke MLLM guidance only when the target object is heavily occluded. If guidance is required, the framework further incorporates MLLMs to reason about both the (1) extent and (2) content of the missing regions. Finally, a visual generative model integrates these guidance and iteratively refines imperfect completions that may arise from inaccurate MLLM guidance. Experimental results on various real-world images show impressive improvements compared to all existing works, suggesting MLLMs as a promising direction for addressing challenging amodal completion.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!