2601.15953v1 Jan 22, 2026 cs.AI

효율적인 Decision Transformer를 위한 Return-to-Go 분리

Decoupling Return-to-Go for Efficient Decision Transformer

Lingfeng Li
Lingfeng Li
Citations: 3
h-index: 1
Yongyi Wang
Yongyi Wang
Citations: 4
h-index: 1
Hanyu Liu
Hanyu Liu
Citations: 1
h-index: 1
Bozhou Chen
Bozhou Chen
Citations: 1
h-index: 1
Qirui Zheng
Qirui Zheng
Citations: 16
h-index: 2
Xionghui Yang
Xionghui Yang
Citations: 3
h-index: 1
Wenxin Li
Wenxin Li
Citations: 12
h-index: 1
Ang Li
Ang Li
Citations: 1
h-index: 1

Decision Transformer (DT)는 오프라인 강화학습을 위한 강력한 시퀀스 모델링 접근 방식을 확립했습니다. DT는 Return-to-Go (RTG)를 조건으로 행동 예측을 수행하며, 이를 통해 훈련 중에는 궤적의 품질을 구별하고 추론 시에는 행동 생성을 유도합니다. 본 연구에서는 이러한 설계에 존재하는 중요한 중복성을 지적합니다. 즉, 가장 최근의 RTG만이 행동 예측에 영향을 미치기 때문에 RTG 시퀀스 전체를 Transformer에 입력하는 것은 이론적으로 불필요합니다. 우리는 실험을 통해 이러한 중복성이 DT의 성능을 저해할 수 있음을 보여줍니다. 이를 해결하기 위해 우리는 Decoupled DT (DDT)를 제안합니다. DDT는 관측 및 행동 시퀀스만을 Transformer를 통해 처리하고, 최신 RTG를 사용하여 행동 예측을 유도함으로써 아키텍처를 단순화합니다. 이러한 간소화된 접근 방식은 성능을 향상시킬 뿐만 아니라 연산 비용을 절감합니다. 실험 결과에 따르면, DDT는 DT를 크게 능가하며 여러 오프라인 강화학습 태스크에서 최신 DT 변형 모델들과 대등한 경쟁력 있는 성능을 입증했습니다.

Original Abstract

The Decision Transformer (DT) has established a powerful sequence modeling approach to offline reinforcement learning. It conditions its action predictions on Return-to-Go (RTG), using it both to distinguish trajectory quality during training and to guide action generation at inference. In this work, we identify a critical redundancy in this design: feeding the entire sequence of RTGs into the Transformer is theoretically unnecessary, as only the most recent RTG affects action prediction. We show that this redundancy can impair DT's performance through experiments. To resolve this, we propose the Decoupled DT (DDT). DDT simplifies the architecture by processing only observation and action sequences through the Transformer, using the latest RTG to guide the action prediction. This streamlined approach not only improves performance but also reduces computational cost. Our experiments show that DDT significantly outperforms DT and establishes competitive performance against state-of-the-art DT variants across multiple offline RL tasks.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!