2601.23064v2 Jan 30, 2026 cs.CV

HierLoc: 계층적 시각적 지리 위치 추정을 위한 쌍곡선 엔티티 임베딩

HierLoc: Hyperbolic Entity Embeddings for Hierarchical Visual Geolocation

Hari Krishna Gadi
Hari Krishna Gadi
Citations: 2
h-index: 1
Hongyi Luo
Hongyi Luo
Citations: 5
h-index: 1
Lu Liu
Lu Liu
Citations: 2
h-index: 1
Yongliang Wang
Yongliang Wang
Citations: 15
h-index: 2
Yanfeng Zhang
Yanfeng Zhang
Citations: 15
h-index: 3
Liqiu Meng
Liqiu Meng
Citations: 10
h-index: 2
Daniel Matos
Daniel Matos
Huawei Technologies
Citations: 26
h-index: 3

이미지가 촬영된 위치를 예측하는 시각적 지리 위치 추정은 전역적인 규모, 시각적 모호성, 그리고 지리의 본질적인 계층적 구조로 인해 여전히 어려운 과제입니다. 기존 방법들은 대규모 검색(많은 이미지 임베딩 저장 필요), 지리적 연속성을 무시하는 그리드 기반 분류기, 또는 공간적으로 확산되지만 세부 사항을 처리하는 데 어려움을 겪는 생성 모델에 의존합니다. 본 논문에서는 지리적 엔티티를 쌍곡선 공간에 임베딩하여 이미지 간 검색을 대체하는 엔티티 중심의 지리 위치 추정 방식을 제안합니다. 제안하는 방식은 하버사인 거리를 대비 학습 목표에 직접 통합하여 이미지와 국가, 지역, 하위 지역, 도시 엔티티를 직접 연결합니다. 이러한 계층적 설계는 해석 가능한 예측을 가능하게 하며, OSV5M 벤치마크에서 5백만 개 이상의 이미지 임베딩 대신 24만 개의 엔티티 임베딩을 사용하여 효율적인 추론을 가능하게 합니다. 제안하는 방법은 기존 방법보다 평균 지오데식 오차를 19.5% 줄이고, 세분화된 하위 지역 정확도를 43% 향상시켜 새로운 최고 성능을 달성했습니다. 이러한 결과는 지리 정보를 고려한 계층적 임베딩이 전역 이미지 지리 위치 추정을 위한 확장 가능하고 개념적으로 새로운 대안을 제공한다는 것을 보여줍니다.

Original Abstract

Visual geolocalization, the task of predicting where an image was taken, remains challenging due to global scale, visual ambiguity, and the inherently hierarchical structure of geography. Existing paradigms rely on either large-scale retrieval, which requires storing a large number of image embeddings, grid-based classifiers that ignore geographic continuity, or generative models that diffuse over space but struggle with fine detail. We introduce an entity-centric formulation of geolocation that replaces image-to-image retrieval with a compact hierarchy of geographic entities embedded in Hyperbolic space. Images are aligned directly to country, region, subregion, and city entities through Geo-Weighted Hyperbolic contrastive learning by directly incorporating haversine distance into the contrastive objective. This hierarchical design enables interpretable predictions and efficient inference with 240k entity embeddings instead of over 5 million image embeddings on the OSV5M benchmark, on which our method establishes a new state-of-the-art performance. Compared to the current methods in the literature, it reduces mean geodesic error by 19.5\%, while improving the fine-grained subregion accuracy by 43%. These results demonstrate that geometry-aware hierarchical embeddings provide a scalable and conceptually new alternative for global image geolocation.

1 Citations
1 Influential
1.5 Altmetric
10.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!