DecisionLLM: 장기 시퀀스 의사결정 탐색을 위한 대규모 언어 모델
DecisionLLM: Large Language Models for Long Sequence Decision Exploration
보통 강화 학습(RL)을 통해 해결되는 장기 시퀀스 의사결정은 컴퓨테이셔널 광고의 실시간 입찰과 같은 동적 환경에서 전략적 운영을 최적화하는 데 중요한 요소입니다. Decision Transformer(DT)는 RL을 자기회귀 시퀀스 모델링 문제로 재구성함으로써 강력한 패러다임을 도입했습니다. 동시에, 대규모 언어 모델(LLM)은 복잡한 추론 및 계획 작업에서 놀라운 성공을 보여주었습니다. 이에 영감을 받아, 본 연구는 동일한 트랜스포머 기반을 공유하지만 훨씬 더 큰 규모로 작동하는 LLM이 장기 순차적 의사결정 문제에서 새로운 수준의 성능을 이끌어낼 수 있을지 탐구합니다. 본 연구는 오프라인 의사결정 태스크에 LLM을 적용하는 방법을 조사합니다. 이 분야의 근본적인 과제는 값이 텍스트 문자열로 표현될 때 수치적 크기와 순서에 대한 본질적인 이해가 결여되어 있어 LLM이 연속적인 값을 해석하는 능력이 부족하다는 점입니다. 이를 해결하기 위해 우리는 궤적(trajectory)을 별도의 모달리티로 취급할 것을 제안합니다. 궤적 데이터를 자연어 태스크 설명과 정렬하도록 학습함으로써, 우리 모델은 DecisionLLM이라고 명명한 통합 프레임워크 내에서 미래의 결정을 자기회귀적으로 예측할 수 있습니다. 우리는 이 패러다임을 지배하는 스케일링 법칙을 수립하여, 성능이 모델 규모, 데이터 양, 데이터 품질이라는 세 가지 요소에 좌우됨을 입증합니다. 오프라인 실험 벤치마크와 입찰 시나리오에서 DecisionLLM은 강력한 성능을 달성했습니다. 구체적으로 DecisionLLM-3B는 Maze2D umaze-v1에서 기존 Decision Transformer(DT)보다 69.4, AuctionNet에서는 0.085 더 우수한 성능을 보였습니다. 이는 AIGB 패러다임을 확장하며 온라인 입찰에서의 향후 연구를 위한 유망한 방향을 제시합니다.
Long-sequence decision-making, which is usually addressed through reinforcement learning (RL), is a critical component for optimizing strategic operations in dynamic environments, such as real-time bidding in computational advertising. The Decision Transformer (DT) introduced a powerful paradigm by framing RL as an autoregressive sequence modeling problem. Concurrently, Large Language Models (LLMs) have demonstrated remarkable success in complex reasoning and planning tasks. This inspires us whether LLMs, which share the same Transformer foundation, but operate at a much larger scale, can unlock new levels of performance in long-horizon sequential decision-making problem. This work investigates the application of LLMs to offline decision making tasks. A fundamental challenge in this domain is the LLMs' inherent inability to interpret continuous values, as they lack a native understanding of numerical magnitude and order when values are represented as text strings. To address this, we propose treating trajectories as a distinct modality. By learning to align trajectory data with natural language task descriptions, our model can autoregressively predict future decisions within a cohesive framework we term DecisionLLM. We establish a set of scaling laws governing this paradigm, demonstrating that performance hinges on three factors: model scale, data volume, and data quality. In offline experimental benchmarks and bidding scenarios, DecisionLLM achieves strong performance. Specifically, DecisionLLM-3B outperforms the traditional Decision Transformer (DT) by 69.4 on Maze2D umaze-v1 and by 0.085 on AuctionNet. It extends the AIGB paradigm and points to promising directions for future exploration in online bidding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.