GPSBench: 대규모 언어 모델은 GPS 좌표를 이해하는가?
GPSBench: Do Large Language Models Understand GPS Coordinates?
대규모 언어 모델(LLM)이 내비게이션, 로봇 공학, 지도 제작과 같이 물리적 세계와 상호작용하는 애플리케이션에 점점 더 많이 배포됨에 따라, 견고한 지리 공간 추론은 핵심적인 역량이 되었습니다. 그럼에도 불구하고, GPS 좌표와 실제 지리에 대해 추론하는 LLM의 능력은 여전히 충분히 탐구되지 않았습니다. 우리는 LLM의 지리 공간 추론 능력을 평가하기 위해 17개 작업에 걸친 57,800개 샘플로 구성된 데이터셋인 GPSBench를 소개합니다. 이 데이터셋은 기하학적 좌표 연산(예: 거리 및 방위 계산)부터 좌표와 세계 지식을 통합하는 추론까지 포괄합니다. 도구 사용보다는 모델 고유의 능력에 초점을 맞추어 14개의 최첨단 LLM을 평가한 결과, GPS 추론은 여전히 어려운 과제이며 작업 간에 상당한 편차가 있음을 발견했습니다. 모델들은 일반적으로 기하학적 계산보다 실제 지리적 추론에서 더 신뢰할 수 있는 성능을 보였습니다. 지리적 지식은 계층적으로 저하되는 경향을 보여 국가 수준의 성능은 강력하지만 도시 수준의 위치 파악 능력은 약했습니다. 반면, 좌표 노이즈에 대한 견고성은 단순 암기가 아닌 진정한 좌표 이해를 시사합니다. 또한 우리는 GPS 좌표 증강이 다운스트림 지리 공간 작업의 성능을 향상시킬 수 있음을 보여주며, 미세 조정(finetuning)이 기하학적 계산 능력의 향상과 세계 지식의 저하 사이에 트레이드오프를 유발한다는 것을 보여줍니다. 우리의 데이터셋과 재현 가능한 코드는 https://github.com/joey234/gpsbench 에서 확인할 수 있습니다.
Large Language Models (LLMs) are increasingly deployed in applications that interact with the physical world, such as navigation, robotics, or mapping, making robust geospatial reasoning a critical capability. Despite that, LLMs' ability to reason about GPS coordinates and real-world geography remains underexplored. We introduce GPSBench, a dataset of 57,800 samples across 17 tasks for evaluating geospatial reasoning in LLMs, spanning geometric coordinate operations (e.g., distance and bearing computation) and reasoning that integrates coordinates with world knowledge. Focusing on intrinsic model capabilities rather than tool use, we evaluate 14 state-of-the-art LLMs and find that GPS reasoning remains challenging, with substantial variation across tasks: models are generally more reliable at real-world geographic reasoning than at geometric computations. Geographic knowledge degrades hierarchically, with strong country-level performance but weak city-level localization, while robustness to coordinate noise suggests genuine coordinate understanding rather than memorization. We further show that GPS-coordinate augmentation can improve in downstream geospatial tasks, and that finetuning induces trade-offs between gains in geometric computation and degradation in world knowledge. Our dataset and reproducible code are available at https://github.com/joey234/gpsbench
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.