2601.09609v1 Jan 14, 2026 cs.CL

DPWriter: 다양한 계획 분기 방식을 활용한 강화 학습 기반 창의적 글쓰기

DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing

Ruiming Tang
Ruiming Tang
Citations: 49
h-index: 3
Yi Zhao
Yi Zhao
Citations: 65
h-index: 6
Han Li
Han Li
Citations: 3
h-index: 1
Qian Cao
Qian Cao
Renmin University of China
Citations: 21
h-index: 3
Yahui Liu
Yahui Liu
Citations: 3
h-index: 1
Wei Bi
Wei Bi
Citations: 0
h-index: 0
Rui-jie Song
Rui-jie Song
Citations: 38
h-index: 3
Xiting Wang
Xiting Wang
Citations: 52
h-index: 4
Guorui Zhou
Guorui Zhou
Citations: 173
h-index: 8

대규모 언어 모델(LLM)을 강화 학습(RL)을 통해 개선하는 것은 종종 출력 다양성을 감소시켜 창의적 글쓰기와 같은 개방형 작업에서 유용성을 저해합니다. 기존 방법은 명시적인 다양한 탐색 지침 메커니즘이 부족하며, 효율성과 성능 최적화보다 다양성을 우선시합니다. 본 논문에서는 반정형적인 긴 Chain-of-Thought(CoT) 구조를 기반으로 하는 RL 프레임워크를 제안합니다. 이 프레임워크는 생성 과정을 명시적으로 계획된 중간 단계로 분해합니다. 우리는 다양성 변화에 기반하여 계획 단계에서 전략적으로 분기를 도입하는 '다양한 계획 분기(Diverse Planning Branching)' 방법을 소개하고, 뚜렷한 경로를 장려하기 위한 그룹 인지 다양성 보상을 사용합니다. 창의적 글쓰기 벤치마크 실험 결과, 제안하는 방법은 생성 품질을 저해하지 않고 출력 다양성을 크게 향상시켰으며, 기존의 방법들을 일관되게 능가하는 성능을 보였습니다.

Original Abstract

Reinforcement learning (RL)-based enhancement of large language models (LLMs) often leads to reduced output diversity, undermining their utility in open-ended tasks like creative writing. Current methods lack explicit mechanisms for guiding diverse exploration and instead prioritize optimization efficiency and performance over diversity. This paper proposes an RL framework structured around a semi-structured long Chain-of-Thought (CoT), in which the generation process is decomposed into explicitly planned intermediate steps. We introduce a Diverse Planning Branching method that strategically introduces divergence at the planning phase based on diversity variation, alongside a group-aware diversity reward to encourage distinct trajectories. Experimental results on creative writing benchmarks demonstrate that our approach significantly improves output diversity without compromising generation quality, consistently outperforming existing baselines.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!