자기회귀 RTG을 넘어: 의사 결정 트랜스포머에서 순차적 모델링 외부의 조건부 주입
Beyond Autoregressive RTG: Conditioning via Injection Outside Sequential Modeling in Decision Transformer
의사 결정 트랜스포머(DT)는 오프라인 강화 학습을 자기회귀 시퀀스 모델링으로 표현하여, Return-to-Go (RTG), 상태 및 액션 토큰의 시퀀스에서 액션을 예측함으로써 유망한 결과를 보여줍니다. 그러나 RTG는 미래 보상을 요약하는 스칼라 값이며, 일반적인 상태 또는 액션 벡터보다 훨씬 적은 정보를 담고 있지만, 토큰당 동일한 계산 리소스를 소비합니다. 더욱이 트랜스포머의 자기 주의 메커니즘은 시퀀스 길이에 대해 제곱으로 증가하므로, RTG를 별도의 토큰으로 포함하는 것은 불필요한 오버헤드를 발생시킵니다. 본 논문에서는 RTG를 자기회귀 시퀀스에서 제거하는 SlimDT를 제안합니다. 대신, 순차적 모델링 단계 전에 상태 표현에 RTG 정보를 주입하여 트랜스포머가 (상태, 액션)의 짧은 시퀀스만 처리하도록 합니다. 이를 통해 시퀀스 길이를 3분의 1로 줄여 추론 효율성을 직접적으로 향상시킵니다. D4RL 벤치마크에서 SlimDT는 다양한 작업에서 표준 DT를 능가하며, 기존 최고 성능 방법과 비교 가능한 성능을 달성했습니다. 희소한 조건부 신호를 정보가 풍부한 시퀀스와 분리함으로써, 계산 효율성과 작업 성능을 모두 향상시킬 수 있습니다.
Decision Transformer (DT) formulates offline reinforcement learning as autoregressive sequence modeling, achieving promising results by predicting actions from a sequence of Return-to-Go (RTG), state, and action tokens. However, RTG is a scalar that summarizes future rewards, containing far less information than typical state or action vectors, yet it consumes the same computational budget per token. Worse, the self-attention cost of Transformers grows quadratically with sequence length, so including RTG as a separate token adds unnecessary overhead. We propose SlimDT, which removes RTG from the autoregressive sequence. Instead, we inject RTG information into the state representations before the sequential modeling step, allowing the Transformer to process only a compact (state, action) sequence. This reduces the sequence length by one-third, directly improving inference efficiency. On the D4RL benchmark, SlimDT surpasses standard DT across various tasks and achieves performance comparable to existing state-of-the-art methods. Decoupling a sparse conditioning signal from an information-rich sequence thus yields both computational gains and higher task performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.