위성 이미지로부터 생성적 시각 모델을 활용하여 재난 이후 모습을 합성: 위성에서 도로로
Satellite-to-Street: Synthesizing Post-Disaster Views from Satellite Imagery via Generative Vision Models
자연 재해 발생 직후, 신속한 상황 인지 능력은 매우 중요합니다. 전통적으로, 위성 관측 자료는 피해 규모를 추정하는 데 널리 사용되어 왔습니다. 그러나 이러한 자료는 특정 구조물의 손상 및 영향 특성을 파악하는 데 필수적인 지상 관점의 정보가 부족합니다. 반면, 지상 데이터(예: 스트리트 뷰 이미지)는 시간 제약이 있는 상황에서 대부분 접근하기 어렵습니다. 본 연구는 이러한 데이터 격차를 해소하기 위해 위성-스트리트 뷰 합성 방법을 연구합니다. 위성 이미지로부터 재난 이후의 스트리트 뷰를 합성하기 위한 두 가지 생성 전략을 제시합니다. 첫 번째는 Vision-Language Model (VLM)을 활용한 방법이고, 두 번째는 손상 정도에 민감한 Mixture-of-Experts (MoE) 방법입니다. 제안된 Structure-Aware Evaluation Framework를 사용하여 이러한 방법들을 일반적인 기준 모델(Pix2Pix, ControlNet)과 비교합니다. 이 다단계 평가 프로토콜은 (1) 픽셀 수준의 품질 평가, (2) ResNet 기반의 의미적 일관성 검증, 그리고 (3) 시각적 정렬을 위한 새로운 VLM-as-a-Judge 방법을 포함합니다. 300개의 재난 시나리오에 대한 실험 결과, 현실성(perceptual realism)과 충실도(fidelity) 간의 중요한 균형이 존재한다는 것을 보여줍니다. 확산 모델 기반 방법(예: ControlNet)은 높은 시각적 현실성을 달성하지만, 종종 구조적 세부 사항을 과장하는 경향이 있습니다. 정량적 결과는 표준 ControlNet이 가장 높은 의미적 정확도(0.71)를 보이는 반면, VLM 기반 및 MoE 모델은 질감의 타당성에서 우수하지만 의미적 명확성에서는 어려움을 겪는다는 것을 보여줍니다. 본 연구는 신뢰할 수 있는 다중 뷰 합성을 위한 기준을 제시하며, 시각적으로 현실적인 결과물이더라도 재난 평가에 필요한 중요한 구조 정보를 보존하지 못할 수 있다는 점을 강조합니다.
In the immediate aftermath of natural disasters, rapid situational awareness is critical. Traditionally, satellite observations are widely used to estimate damage extent. However, they lack the ground-level perspective essential for characterizing specific structural failures and impacts. Meanwhile, ground-level data (e.g., street-view imagery) remains largely inaccessible during time-sensitive events. This study investigates Satellite-to-Street View Synthesis to bridge this data gap. We introduce two generative strategies to synthesize post-disaster street views from satellite imagery: a Vision-Language Model (VLM)-guided approach and a damage-sensitive Mixture-of-Experts (MoE) method. We benchmark these against general-purpose baselines (Pix2Pix, ControlNet) using a proposed Structure-Aware Evaluation Framework. This multi-tier protocol integrates (1) pixel-level quality assessment, (2) ResNet-based semantic consistency verification, and (3) a novel VLM-as-a-Judge for perceptual alignment. Experiments on 300 disaster scenarios reveal a critical realism--fidelity trade-off: while diffusion-based approaches (e.g., ControlNet) achieve high perceptual realism, they often hallucinate structural details. Quantitative results show that standard ControlNet achieves the highest semantic accuracy, 0.71, whereas VLM-enhanced and MoE models excel in textural plausibility but struggle with semantic clarity. This work establishes a baseline for trustworthy cross-view synthesis, emphasizing that visually realistic generations may still fail to preserve critical structural information required for reliable disaster assessment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.