2601.10477v1 Jan 15, 2026 cs.CV

비전-언어 추론을 활용한 도시 사회-의미 분할

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

Yi Wang
Yi Wang
Citations: 1
h-index: 1
Rui Dai
Rui Dai
Citations: 5
h-index: 1
Kaikui Liu
Kaikui Liu
Citations: 249
h-index: 5
Xiangxiang Chu
Xiangxiang Chu
Citations: 21
h-index: 3
Yu Wang
Yu Wang
Citations: 52
h-index: 3
Yujie Wang
Yujie Wang
Citations: 1
h-index: 1
Yansheng Li
Yansheng Li
Citations: 1
h-index: 1

도시 지역은 인간 활동의 중심지로서 다양한 의미를 내포한 요소들로 구성됩니다. 이러한 다양한 요소를 위성 이미지로부터 분할하는 것은 여러 응용 분야에서 매우 중요합니다. 현재의 고급 분할 모델은 물리적 속성(예: 건물, 수역)에 의해 정의된 요소들을 비교적 정확하게 분할할 수 있지만, 사회적으로 정의된 범주(예: 학교, 공원)에 대해서는 여전히 어려움을 겪습니다. 본 연구에서는 비전-언어 모델의 추론을 통해 사회-의미 분할을 달성합니다. 이를 위해, 위성 이미지, 디지털 지도, 그리고 계층 구조로 구성된 사회적 의미 요소의 픽셀 단위 레이블을 포함하는 새로운 데이터셋인 SocioSeg(Urban Socio-Semantic Segmentation dataset)을 소개합니다. 또한, 인간의 사회적 의미 요소 식별 및 주석 과정을 모방하는 교차 모달 인식 및 다단계 추론을 통해 사회적 의미 분할을 수행하는 새로운 비전-언어 추론 프레임워크인 SocioReasoner를 제안합니다. 강화 학습을 사용하여 이 미분 불가능한 과정을 최적화하고, 비전-언어 모델의 추론 능력을 향상시킵니다. 실험 결과는 제안하는 방법이 최첨단 모델보다 우수한 성능을 보이며, 강력한 제로샷 일반화 능력을 갖는다는 것을 보여줍니다. 데이터셋 및 코드는 https://github.com/AMAP-ML/SocioReasoner 에서 제공됩니다.

Original Abstract

As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.

1 Citations
0 Influential
48.059938941783 Altmetric
241.3 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!