재구성, 보상, 반복: 내러티브 이론 기반 스토리 생성을 위한 강화 학습
Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Generation
자동 스토리 생성(ASG) 분야에서, 과거 연구들은 훈련 및 평가를 위해 제한적인 기준점을 활용해 왔습니다. 본 연구에서는 지도 학습 미세 조정(SFT)의 대안으로 강화 학습(d-RLAIF)을 탐구합니다. 먼저, 토도로프의 내러티브 균형 이론을 적용하여 바람직한 ASG의 품질을 정의하는 원칙을 설정합니다. 우리는 7B 및 14B 크기의 LLM 모델을 평가기로 활용하여, 설정된 원칙에 따른 ASG 결과가 인간 평가자와 얼마나 일치하는지 확인하고, d-RLAIF 과정에서 보상 신호를 제공합니다. 우리는 Gemini-3-Flash를 사용하여, 저희가 후처리한 모델의 결과를 평가하고, TimeTravel 데이터셋에서 수집된 인간이 작성한 스토리들과 비교합니다. 연구 결과, d-RLAIF는 지도 학습 미세 조정(SFT)의 실행 가능한 대안을 제시하며, 더욱 다양하고 인간의 내러티브 관습에 부합하는 스토리를 생성합니다. 본 연구는 강화 학습이 언어학적으로 기반한 후처리 과정을 통해 주관적인 작업, 즉 ASG와 같은 분야에서 활용될 수 있는 잠재력을 보여줍니다.
Despite the subjective nature of storytelling, past works on automatic story generation (ASG) have relied on limited ground truths for training and evaluation. In this work, we explore reinforcement learning (d-RLAIF) as a post-training alternative to supervised fine-tuning (SFT). We first apply Todorov's Theory of Narrative Equilibrium to establish principles that define desirable ASG qualities. We prompt 7B and 14B LLM-as-judge models with our principles to test alignment with human annotators and provide reward signals during d-RLAIF. We use Gemini-3-Flash to evaluate the output of our post-trained models and compare them to human-written stories from the TimeTravel dataset. We show that d-RLAIF offers a viable alternative to supervised fine-tuning (SFT)--producing stories that are more diverse and aligned with human narrative conventions. Our paper demonstrates the promise of reinforcement learning for linguistically grounded post-training for subjective tasks such as ASG.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.