DPWriter: 다양한 계획 분기 방식을 활용한 강화 학습 기반 창의적 글쓰기
DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing
대규모 언어 모델(LLM)을 강화 학습(RL)을 통해 개선하는 것은 종종 출력 다양성을 감소시켜 창의적 글쓰기와 같은 개방형 작업에서 유용성을 저해합니다. 기존 방법은 명시적인 다양한 탐색 지침 메커니즘이 부족하며, 효율성과 성능 최적화보다 다양성을 우선시합니다. 본 논문에서는 반정형적인 긴 Chain-of-Thought(CoT) 구조를 기반으로 하는 RL 프레임워크를 제안합니다. 이 프레임워크는 생성 과정을 명시적으로 계획된 중간 단계로 분해합니다. 우리는 다양성 변화에 기반하여 계획 단계에서 전략적으로 분기를 도입하는 '다양한 계획 분기(Diverse Planning Branching)' 방법을 소개하고, 뚜렷한 경로를 장려하기 위한 그룹 인지 다양성 보상을 사용합니다. 창의적 글쓰기 벤치마크 실험 결과, 제안하는 방법은 생성 품질을 저해하지 않고 출력 다양성을 크게 향상시켰으며, 기존의 방법들을 일관되게 능가하는 성능을 보였습니다.
Reinforcement learning (RL)-based enhancement of large language models (LLMs) often leads to reduced output diversity, undermining their utility in open-ended tasks like creative writing. Current methods lack explicit mechanisms for guiding diverse exploration and instead prioritize optimization efficiency and performance over diversity. This paper proposes an RL framework structured around a semi-structured long Chain-of-Thought (CoT), in which the generation process is decomposed into explicitly planned intermediate steps. We introduce a Diverse Planning Branching method that strategically introduces divergence at the planning phase based on diversity variation, alongside a group-aware diversity reward to encourage distinct trajectories. Experimental results on creative writing benchmarks demonstrate that our approach significantly improves output diversity without compromising generation quality, consistently outperforming existing baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.