2602.20643v1 Feb 24, 2026 cs.LG

TrajGPT-R: 강화 학습 기반 생성 사전 훈련 트랜스포머를 활용한 도시 이동 경로 생성

TrajGPT-R: Generating Urban Mobility Trajectory with Reinforcement Learning-Enhanced Generative Pre-trained Transformer

Jiawei Wang
Jiawei Wang
Citations: 119
h-index: 2
Chuan Yang
Chuan Yang
Citations: 14
h-index: 2
Jiawei Yong
Jiawei Yong
Citations: 354
h-index: 3
Xiaohang Xu
Xiaohang Xu
Citations: 62
h-index: 4
Hongjun Wang
Hongjun Wang
Citations: 95
h-index: 6
Noboru Koshizuka
Noboru Koshizuka
Citations: 56
h-index: 4
Shintaro Fukushima
Shintaro Fukushima
Citations: 395
h-index: 5
Ryosuke Shibasaki
Ryosuke Shibasaki
Citations: 219
h-index: 7
Renhe Jiang
Renhe Jiang
Citations: 32
h-index: 3

도시 역학을 이해하고 도시 계획을 개선하는 데 필수적인 이동 경로 데이터는 종종 개인 정보 보호 문제로 인해 접근이 제한됩니다. 본 연구는 혁신적인 프레임워크를 제시하여 대규모 도시 이동 경로를 생성하며, 이는 트랜스포머 기반 모델을 두 단계의 과정을 거쳐 사전 훈련하고 미세 조정하는 새로운 방법을 활용합니다. 먼저, 경로 생성을 오프라인 강화 학습(RL) 문제로 정의하고, 토큰화 과정에서 어휘 공간을 크게 줄입니다. 역 강화 학습(IRL)을 통합하여 경로별 보상 신호를 캡처하고, 과거 데이터를 활용하여 개인의 이동 선호도를 추론합니다. 이후, 구축된 보상 모델을 사용하여 사전 훈련된 모델을 미세 조정함으로써, 기존의 강화 학습 기반 자기 회귀 방법에서 발생하는 장기적인 보상 할당 및 희소 보상 환경 처리와 같은 문제점을 효과적으로 해결합니다. 다양한 데이터 세트에 대한 종합적인 평가 결과, 본 프레임워크가 기존 모델보다 신뢰성과 다양성 측면에서 현저히 우수한 성능을 보임을 확인했습니다. 본 연구의 결과는 도시 이동 모델링 분야를 발전시킬 뿐만 아니라, 도시 데이터를 시뮬레이션하기 위한 강력한 방법론을 제공하며, 교통 관리 및 도시 개발 계획에 중요한 영향을 미칠 것입니다. 구현 코드는 다음 링크에서 공개적으로 이용할 수 있습니다: https://github.com/Wangjw6/TrajGPT_R.

Original Abstract

Mobility trajectories are essential for understanding urban dynamics and enhancing urban planning, yet access to such data is frequently hindered by privacy concerns. This research introduces a transformative framework for generating large-scale urban mobility trajectories, employing a novel application of a transformer-based model pre-trained and fine-tuned through a two-phase process. Initially, trajectory generation is conceptualized as an offline reinforcement learning (RL) problem, with a significant reduction in vocabulary space achieved during tokenization. The integration of Inverse Reinforcement Learning (IRL) allows for the capture of trajectory-wise reward signals, leveraging historical data to infer individual mobility preferences. Subsequently, the pre-trained model is fine-tuned using the constructed reward model, effectively addressing the challenges inherent in traditional RL-based autoregressive methods, such as long-term credit assignment and handling of sparse reward environments. Comprehensive evaluations on multiple datasets illustrate that our framework markedly surpasses existing models in terms of reliability and diversity. Our findings not only advance the field of urban mobility modeling but also provide a robust methodology for simulating urban data, with significant implications for traffic management and urban development planning. The implementation is publicly available at https://github.com/Wangjw6/TrajGPT_R.

0 Citations
0 Influential
23.5 Altmetric
117.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!