UAV 장면 변화 캡셔닝을 위한 계층적 이중 변화 협력 학습
Hierarchical Dual-Change Collaborative Learning for UAV Scene Change Captioning
본 논문에서는 UAV 장면 이해를 위한 새로운 연구 과제인 UAV 장면 변화 캡셔닝(UAV-SCC)을 제안합니다. UAV-SCC는 이동 가능한 시점에서 촬영된 동적 항공 이미지를 통해 발생하는 의미 변화에 대한 자연어 설명을 생성하는 것을 목표로 합니다. 기존의 변화 캡셔닝이 주로 고정된 카메라 시점에서 시간 경과에 따른 이미지 쌍의 차이점을 설명하는 반면, UAV 장면 변화 캡셔닝은 카메라 회전으로 인해 발생하는 시점 변화로 인해 발생하는 시간적 및 공간적 장면 변화 모두에 따른 이미지 쌍의 차이점에 중점을 둡니다. 핵심적인 과제는 UAV 이미지 쌍에서 발생하는 시점 변화로 인해 부분적으로 겹치는 장면 내용만 공유하는 경우, 시점 변화에 의해 유발되는 장면 변화를 이해하고, 동시에 두 이미지 간의 상대적인 방향 정보를 효과적으로 활용하는 것입니다. 이러한 문제를 해결하기 위해, UAV 장면 변화 캡셔닝을 위한 계층적 이중 변화 협력 학습(HDC-CL) 방법을 제안합니다. 특히, 이미지 쌍의 다양한 공간 구조를 적응적으로 모델링하기 위한 새로운 트랜스포머인 Dynamic Adaptive Layout Transformer (DALT)를 설계했습니다. DALT는 겹치는 영역과 겹치지 않는 영역에서 파생된 상호 관련된 특징을 유연하고 통합된 인코딩 레이어 내에서 학습합니다. 또한, 모델이 시점 변화 방향에 더욱 민감하게 반응하도록 하여 보다 정확한 변화 캡셔닝을 가능하게 하는 계층적 크로스-모달 방향 일관성 보정(HCM-OCC) 방법을 제안합니다. 본 연구 과제에 대한 심층적인 연구를 지원하기 위해, UAV 장면 변화 캡셔닝을 위한 새로운 벤치마크 데이터셋인 UAV-SCC 데이터셋을 구축했습니다. 광범위한 실험 결과는 제안된 방법이 이 분야에서 최고 수준의 성능을 달성함을 보여줍니다. 본 논문이 게재되면 데이터셋과 코드를 공개할 예정입니다.
This paper proposes a novel task for UAV scene understanding - UAV Scene Change Captioning (UAV-SCC) - which aims to generate natural language descriptions of semantic changes in dynamic aerial imagery captured from a movable viewpoint. Unlike traditional change captioning that mainly describes differences between image pairs captured from a fixed camera viewpoint over time, UAV scene change captioning focuses on image-pair differences resulting from both temporal and spatial scene variations dynamically captured by a moving camera. The key challenge lies in understanding viewpoint-induced scene changes from UAV image pairs that share only partially overlapping scene content due to viewpoint shifts caused by camera rotation, while effectively exploiting the relative orientation between the two images. To this end, we propose a Hierarchical Dual-Change Collaborative Learning (HDC-CL) method for UAV scene change captioning. In particular, a novel transformer, \emph{i.e.} Dynamic Adaptive Layout Transformer (DALT) is designed to adaptively model diverse spatial layouts of the image pair, where the interrelated features derived from the overlapping and non-overlapping regions are learned within the flexible and unified encoding layer. Furthermore, we propose a Hierarchical Cross-modal Orientation Consistency Calibration (HCM-OCC) method to enhance the model's sensitivity to viewpoint shift directions, enabling more accurate change captioning. To facilitate in-depth research on this task, we construct a new benchmark dataset, named UAV-SCC dataset, for UAV scene change captioning. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance on this task. The dataset and code will be publicly released upon acceptance of this paper.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.