StoryAlign: 스토리 생성을 위한 보상 모델 평가 및 훈련
StoryAlign: Evaluating and Training Reward Models for Story Generation
스토리 생성은 일관성 있고, 구조화되어 있으며, 흥미로운 이야기를 자동으로 생성하는 것을 목표로 합니다. 대규모 언어 모델(LLM)이 텍스트 생성에 상당한 발전을 가져왔지만, LLM이 생성하는 이야기는 여전히 복잡한 내러티브 구조와 인간의 선호도 측면에서 인간이 작성한 작품과 차이를 보입니다. 주요 원인은 인간의 스토리 선호도를 효과적으로 모델링하지 못하는 데 있으며, 이는 본질적으로 주관적이고 제대로 탐구되지 않았습니다. 본 연구에서는 인간의 스토리 선호도 모델링을 체계적으로 평가하고, 스토리 선호도에 대한 보상 모델을 평가하기 위한 최초의 벤치마크인 StoryRMB를 소개합니다. StoryRMB는 프롬프트, 선택된 스토리, 그리고 세 개의 거부된 스토리로 구성된 1,133개의 고품질, 인간 검증 데이터 인스턴스를 포함합니다. 기존의 보상 모델이 인간이 선호하는 스토리를 선택하는 데 어려움을 겪으며, 가장 성능이 좋은 모델도 66.3%의 정확도를 달성하는 데 그친다는 것을 발견했습니다. 이러한 한계를 해결하기 위해, 다양한 도메인에 걸쳐 약 100,000개의 고품질 스토리 선호도 쌍을 구축하고, 이 데이터셋으로 훈련된 스토리 선호도용 고급 보상 모델인 StoryReward를 개발했습니다. StoryReward는 StoryRMB에서 최첨단(SoTA) 성능을 달성했으며, 훨씬 더 큰 모델보다 뛰어난 성능을 보입니다. 또한, StoryReward를 베스트-오브-엔(BoN) 스토리 선택을 위한 하위 작업 테스트 시간 확장 애플리케이션에 적용하고, 일반적으로 인간의 선호도에 더 잘 부합하는 스토리를 선택한다는 것을 확인했습니다. 본 연구에서 사용한 데이터셋, 모델, 코드를 공개하여 향후 연구를 지원할 예정입니다. 관련 코드 및 데이터는 https://github.com/THU-KEG/StoryReward 에서 확인할 수 있습니다.
Story generation aims to automatically produce coherent, structured, and engaging narratives. Although large language models (LLMs) have significantly advanced text generation, stories generated by LLMs still diverge from human-authored works regarding complex narrative structure and human-aligned preferences. A key reason is the absence of effective modeling of human story preferences, which are inherently subjective and under-explored. In this work, we systematically evaluate the modeling of human story preferences and introduce StoryRMB, the first benchmark for assessing reward models on story preferences. StoryRMB contains $1,133$ high-quality, human-verified instances, each consisting of a prompt, one chosen story, and three rejected stories. We find existing reward models struggle to select human-preferred stories, with the best model achieving only $66.3\%$ accuracy. To address this limitation, we construct roughly $100,000$ high-quality story preference pairs across diverse domains and develop StoryReward, an advanced reward model for story preference trained on this dataset. StoryReward achieves state-of-the-art (SoTA) performance on StoryRMB, outperforming much larger models. We also adopt StoryReward in downstream test-time scaling applications for best-of-n (BoN) story selection and find that it generally chooses stories better aligned with human preferences. We will release our dataset, model, and code to facilitate future research. Related code and data are available at https://github.com/THU-KEG/StoryReward.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.