UniCreative: 참조 데이터 없이 강화 학습을 통해 장문 논리와 단문 창의성을 통합하는 방법
UniCreative: Unifying Long-form Logic and Short-form Sparkle via Reference-Free Reinforcement Learning
창의적인 글쓰기의 핵심적인 과제는 장문 내러티브에서 전반적인 일관성을 유지하는 것과 단문 텍스트에서 지역적인 표현력을 보존하는 것 사이의 본질적인 긴장을 조화시키는 데 있습니다. 장문 생성에는 명시적인 거시적 계획이 필요한 반면, 단문 창의성은 종종 즉흥적이고 제약 없는 표현을 요구합니다. 그러나 기존의 정렬 방식은 일반적으로 정적인 보상 신호를 사용하며 고품질의 지도 데이터에 크게 의존하는데, 이는 비용이 많이 들고 확장하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 참조 데이터 없이 강화 학습을 통해 장문 논리와 단문 창의성을 통합하는 통합 프레임워크인 extbf{UniCreative}를 제안합니다. 먼저, 우리는 쿼리에 특정한 기준을 동적으로 종합하여 세밀한 선호도 판단을 제공하는 적응형 제약 인식 보상 모델인 extbf{AC-GenRM}을 소개합니다. 이러한 신호를 활용하여, 우리는 extbf{ACPO}라는 정책 최적화 알고리즘을 제안합니다. ACPO는 지도 학습이나 정답 데이터 없이, 콘텐츠 품질과 구조적 측면 모두에서 모델을 인간의 선호도에 맞추는 알고리즘입니다. 실험 결과는 AC-GenRM이 전문가 평가와 밀접하게 일치하며, ACPO가 다양한 글쓰기 작업에서 성능을 크게 향상시킨다는 것을 보여줍니다. 더욱 중요한 점은, 우리의 분석을 통해 모델이 자율적으로 엄격한 계획이 필요한 작업과 직접적인 생성이 더 적합한 작업을 구별하는 메타인지 능력을 학습한다는 것을 밝혀냈습니다. 이는 우리의 직접적인 정렬 방식의 효과를 검증하는 것입니다.
A fundamental challenge in creative writing lies in reconciling the inherent tension between maintaining global coherence in long-form narratives and preserving local expressiveness in short-form texts. While long-context generation necessitates explicit macroscopic planning, short-form creativity often demands spontaneous, constraint-free expression. Existing alignment paradigms, however, typically employ static reward signals and rely heavily on high-quality supervised data, which is costly and difficult to scale. To address this, we propose \textbf{UniCreative}, a unified reference-free reinforcement learning framework. We first introduce \textbf{AC-GenRM}, an adaptive constraint-aware reward model that dynamically synthesizes query-specific criteria to provide fine-grained preference judgments. Leveraging these signals, we propose \textbf{ACPO}, a policy optimization algorithm that aligns models with human preferences across both content quality and structural paradigms without supervised fine-tuning and ground-truth references. Empirical results demonstrate that AC-GenRM aligns closely with expert evaluations, while ACPO significantly enhances performance across diverse writing tasks. Crucially, our analysis reveals an emergent meta-cognitive ability: the model learns to autonomously differentiate between tasks requiring rigorous planning and those favoring direct generation, validating the effectiveness of our direct alignment approach.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.