2601.21459v3 Jan 29, 2026 cs.LG

HER: LLM 역할극을 위한 인간과 유사한 추론 및 강화 학습

HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing

Zishan Huang
Zishan Huang
Citations: 165
h-index: 6
Deming Ding
Deming Ding
Citations: 103
h-index: 1
Chengyu Du
Chengyu Du
Citations: 177
h-index: 5
Xintao Wang
Xintao Wang
Fudan University
Citations: 920
h-index: 13
Aili Chen
Aili Chen
Citations: 353
h-index: 5
Weiyuan Li
Weiyuan Li
Citations: 6
h-index: 1
Rui Xu
Rui Xu
Citations: 647
h-index: 9
Junteng Liu
Junteng Liu
Citations: 1,248
h-index: 9
Rong Tian
Rong Tian
Citations: 0
h-index: 0
Zijun Sun
Zijun Sun
Citations: 126
h-index: 2
Yuhao Li
Yuhao Li
Citations: 121
h-index: 4
Liheng Feng
Liheng Feng
Citations: 3,354
h-index: 26
Pengyu Zhao
Pengyu Zhao
Citations: 40
h-index: 1
Yanghua Xiao
Yanghua Xiao
Citations: 1,018
h-index: 13

LLM 역할극, 즉 LLM을 사용하여 특정 인격을 시뮬레이션하는 기술은 동반, 콘텐츠 제작, 디지털 게임 등 다양한 분야에서 핵심적인 기능으로 부상하고 있습니다. 현재 모델들은 캐릭터의 어조와 지식을 효과적으로 반영하지만, 행동 뒤에 숨겨진 내면의 사고 과정을 시뮬레이션하는 것은 여전히 어려운 과제입니다. LLM 역할극에서의 인지 시뮬레이션을 향해, 기존 연구들은 주로 다음과 같은 두 가지 문제점을 안고 있습니다: 고품질의 추론 과정을 담고 있는 데이터 부족, 그리고 인간의 선호도에 부합하는 신뢰성 있는 보상 신호의 부재. 본 논문에서는 인지 수준의 인격 시뮬레이션을 위한 통합 프레임워크인 HER를 제안합니다. HER는 캐릭터의 1인칭 사고와 LLM의 3인칭 사고를 구분하는 이중 계층적 사고 방식을 도입합니다. 이러한 격차를 해소하기 위해, 우리는 역공학을 통해 추론이 강화된 역할극 데이터를 구축하고, 인간의 선호도에 부합하는 원칙과 보상 모델을 개발했습니다. 이러한 자원을 활용하여, 우리는 Qwen3-32B를 기반으로 지도 학습 및 강화 학습을 통해 HER 모델을 학습시켰습니다. 광범위한 실험을 통해, 우리 접근 방식의 효과성을 검증했습니다. 특히, 우리의 모델들은 Qwen3-32B 기준 모델보다 훨씬 뛰어난 성능을 보이며, CoSER 벤치마크에서 30.26%, Minimax 역할극 벤치마크에서 14.97%의 성능 향상을 달성했습니다. 본 연구에서 사용한 데이터셋, 원칙, 모델은 향후 연구를 촉진하기 위해 공개될 예정입니다.

Original Abstract

LLM role-playing, i.e., using LLMs to simulate specific personas, has emerged as a key capability in various applications, such as companionship, content creation, and digital games. While current models effectively capture character tones and knowledge, simulating the inner thoughts behind their behaviors remains a challenge. Towards cognitive simulation in LLM role-play, previous efforts mainly suffer from two deficiencies: data with high-quality reasoning traces, and reliable reward signals aligned with human preferences. In this paper, we propose HER, a unified framework for cognitive-level persona simulation. HER introduces dual-layer thinking, which distinguishes characters' first-person thinking from LLMs' third-person thinking. To bridge these gaps, we curate reasoning-augmented role-playing data via reverse engineering and construct human-aligned principles and reward models. Leveraging these resources, we train HER models based on Qwen3-32B via supervised and reinforcement learning. Extensive experiments validate the effectiveness of our approach. Notably, our models significantly outperform the Qwen3-32B baseline, achieving a 30.26 improvement on the CoSER benchmark and a 14.97 gain on the Minimax Role-Play Bench. Our datasets, principles, and models will be released to facilitate future research.

0 Citations
0 Influential
13 Altmetric
65.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!