Q-정규화 생성 자동 입찰: 비최적 경로에서 최적 정책으로
Q-Regularized Generative Auto-Bidding: From Suboptimal Trajectories to Optimal Policies
전자 상거래의 급속한 발전과 함께, 자동 입찰은 다양한 광고주 환경에서 광고 성과를 최적화하는 데 중요한 역할을 합니다. 현재의 접근 방식은 주로 강화 학습(RL)과 생성 모델에 초점을 맞추고 있습니다. 이러한 노력은 복잡한 구조와 비용이 많이 드는 하이퍼파라미터 튜닝을 활용하여 오프라인의 과거 행동을 모방합니다. 비최적 경로 문제는 정책 학습의 어려움을 더욱 악화시킵니다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Q 값 정규화를 활용한 새로운 생성 자동 입찰 방법인 QGA를 제안합니다. QGA는 의사 결정 트랜스포머(Decision Transformer, DT)의 기반 구조에 Q 값 정규화를 적용하고, 이중 Q 학습 전략을 통합합니다. 이러한 설계는 정책 모방과 행동 가치 극대화를 동시에 최적화하여, 학습된 입찰 정책이 데이터 세트의 경험을 활용하고 비최적 경로의 부정적인 영향을 완화할 수 있도록 합니다. 또한, 데이터 분포를 벗어난 정책 공간을 안전하게 탐색하기 위해, DT 모델이 여러 개의 잔여 보상 목표와 로컬로 변경된 행동에 조건화되는 Q 값 기반의 이중 탐색 메커니즘을 제안합니다. 이 탐색 프로세스는 위에서 언급한 Q 값 모듈에 의해 동적으로 안내되며, 각 후보 행동에 대한 체계적인 평가를 제공합니다. 공개 벤치마크 및 시뮬레이션 환경에서의 실험 결과, QGA는 기존의 다른 방법들과 비교하여 우수한 또는 매우 경쟁력 있는 결과를 지속적으로 달성하는 것으로 나타났습니다. 특히, 대규모의 실제 A/B 테스트에서 QGA는 광고 총매출(GMV)을 3.27% 증가시키고, 광고 투자 수익률(ROI)을 2.49% 향상시키는 결과를 보였습니다.
With the rapid development of e-commerce, auto-bidding has become a key asset in optimizing advertising performance under diverse advertiser environments. The current approaches focus on reinforcement learning (RL) and generative models. These efforts imitate offline historical behaviors by utilizing a complex structure with expensive hyperparameter tuning. The suboptimal trajectories further exacerbate the difficulty of policy learning. To address these challenges, we proposes QGA, a novel Q-value regularized Generative Auto-bidding method. In QGA, we propose to plug a Q-value regularization with double Q-learning strategy into the Decision Transformer backbone. This design enables joint optimization of policy imitation and action-value maximization, allowing the learned bidding policy to both leverage experience from the dataset and alleviate the adverse impact of the suboptimal trajectories. Furthermore, to safely explore the policy space beyond the data distribution, we propose a Q-value guided dual-exploration mechanism, in which the DT model is conditioned on multiple return-to-go targets and locally perturbed actions. This entire exploration process is dynamically guided by the aforementioned Q-value module, which provides principled evaluation for each candidate action. Experiments on public benchmarks and simulation environments demonstrate that QGA consistently achieves superior or highly competitive results compared to existing alternatives. Notably, in large-scale real-world A/B testing, QGA achieves a 3.27% increase in Ad GMV and a 2.49% improvement in Ad ROI.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.