DARA: RL로 파인튜닝된 LLM을 활용한 문맥 기반 의사 결정을 통한 온라인 광고에서의 퓨샷 예산 할당
DARA: Few-shot Budget Allocation in Online Advertising via In-Context Decision Making with RL-Finetuned LLMs
AI 생성 입찰(AIGB) 패러다임 하에서 예산 제약 내에서 낙찰된 노출에 대한 광고주의 누적 가치를 최적화하는 것은 온라인 광고의 복잡한 과제이다. 광고주들은 종종 개인화된 목표를 가지고 있으나 과거 상호작용 데이터가 제한적인 경우가 많아 퓨샷(few-shot) 시나리오가 발생하며, 이 경우 전통적인 강화학습(RL) 방법은 효과적으로 작동하는 데 어려움을 겪는다. 대규모 언어 모델(LLM)은 제한된 데이터로부터 일반화할 수 있는 문맥 내 학습(in-context learning) 능력을 활용하여 AIGB를 위한 유망한 대안을 제공한다. 그러나 LLM은 세밀한 최적화에 필요한 수치적 정밀도가 부족하다는 한계가 있다. 이러한 문제를 해결하기 위해, 우리는 훈련 중에 참조 정책(reference policy)을 동적으로 업데이트하여 추론 능력과 수치적 정밀도를 모두 향상시키는 효율적인 LLM 사후 학습 전략인 GRPO-Adaptive를 소개한다. 이를 기반으로 우리는 의사 결정 과정을 두 단계, 즉 문맥 프롬프팅을 통해 초기 계획을 생성하는 퓨샷 추론기와 피드백 주도 추론을 사용하여 계획을 정교화하는 세밀한 최적화기로 분해하는 새로운 이원화 프레임워크인 DARA를 제안한다. 이러한 분리를 통해 DARA는 LLM의 문맥 내 학습 강점과 AIGB 작업에 필요한 정밀한 적응성을 결합할 수 있다. 실제 및 합성 데이터 환경에서의 광범위한 실험 결과, 제안된 접근 방식이 예산 제약 하의 누적 광고주 가치 측면에서 기존 베이스라인 모델들을 일관되게 능가함을 입증하였다.
Optimizing the advertiser's cumulative value of winning impressions under budget constraints poses a complex challenge in online advertising, under the paradigm of AI-Generated Bidding (AIGB). Advertisers often have personalized objectives but limited historical interaction data, resulting in few-shot scenarios where traditional reinforcement learning (RL) methods struggle to perform effectively. Large Language Models (LLMs) offer a promising alternative for AIGB by leveraging their in-context learning capabilities to generalize from limited data. However, they lack the numerical precision required for fine-grained optimization. To address this limitation, we introduce GRPO-Adaptive, an efficient LLM post-training strategy that enhances both reasoning and numerical precision by dynamically updating the reference policy during training. Built upon this foundation, we further propose DARA, a novel dual-phase framework that decomposes the decision-making process into two stages: a few-shot reasoner that generates initial plans via in-context prompting, and a fine-grained optimizer that refines these plans using feedback-driven reasoning. This separation allows DARA to combine LLMs' in-context learning strengths with precise adaptability required by AIGB tasks. Extensive experiments on both real-world and synthetic data environments demonstrate that our approach consistently outperforms existing baselines in terms of cumulative advertiser value under budget constraints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.