2605.04733v1 May 06, 2026 cs.AI

몰입형 비디오 역할극을 위한 보상 분해 강화 학습

Reward-Decomposed Reinforcement Learning for Immersive Video Role-Playing

Yuling Shi
Yuling Shi
Citations: 398
h-index: 11
Xiaodong Gu
Xiaodong Gu
Citations: 217
h-index: 7
Yijiang Li
Yijiang Li
Citations: 197
h-index: 5
Miaosen Wang
Miaosen Wang
Citations: 122
h-index: 3
Yeheng Chen
Yeheng Chen
Citations: 15
h-index: 2
Bin Li
Bin Li
Citations: 8
h-index: 2
Bo Gao
Bo Gao
Citations: 6
h-index: 2
Yaduan Ruan
Yaduan Ruan
Citations: 7
h-index: 2
Jun Wang
Jun Wang
Citations: 107
h-index: 3
Zengxin Han
Zengxin Han
Citations: 2
h-index: 1
Jingtong Wu
Jingtong Wu
Citations: 6
h-index: 1

텍스트 기반 역할극 모델은 캐릭터의 스타일을 모방할 수 있지만, 가상 현실(VR) 게임 및 인터랙티브 내러티브와 같은 몰입형 애플리케이션에 필수적인 장면의 분위기와 변화하는 긴장감을 제대로 반영하지 못하는 경우가 많습니다. 본 연구에서는 비디오 기반 역할극 대화에 대한 연구를 진행하고, 관찰([지각]), 추론([생각]), 발화([응답]) 과정을 명시적으로 분리하는 GRPO 기반 프레임워크인 EBM-RL (Eye-Brain-Mouth Reinforcement Learning)을 소개합니다. 이러한 구조는 모델이 먼저 시각적 단서에 주의를 기울이도록 유도하여 인간과 유사한 감각적 기반을 조성하고, 내부 해석을 형성한 후 문맥에 적합한 대화를 생성하도록 합니다. EBM-RL은 다음과 같은 네 가지 상호 보완적인 보상을 통합합니다. (i) CLIP 기반 장면-텍스트 정렬을 통해 분위기와 감정을 향상시키고, (ii) 참조 응답의 가능성을 높이는 [지각] 및 [생각] 과정을 장려하는 인지적 보상을 제공하며, (iii) 답변 정확성을 확보하고, (iv) 원하는 구조화된 출력을 강제하는 밀집 형식이 보상을 사용합니다. 다양한 실험 결과, EBM-RL은 기존의 텍스트 기반 역할극 모델 및 대규모 비전-언어 모델에 비해 몰입형 역할극 벤치마크에서 현저히 우수한 성능을 보이며, 시각적-분위기 일관성과 캐릭터의 진정성을 동시에 향상시킵니다. 역할극 영역을 넘어, EBM-RL은 추가적인 미세 조정 없이도 VideoQA 벤치마크에서 일관되게 성능을 향상시키는 강력한 제로샷 일반화 능력을 보여줍니다. 또한, 비디오 기반 역할극 대화를 위한 공개 데이터셋을 제공합니다.

Original Abstract

Text-based role-playing models can imitate character styles, yet they often fail to reflect a scene's atmosphere and evolving tension, both essential for immersive applications such as Virtual Reality (VR) games and interactive narratives. We study video-grounded role-playing dialogue and introduce EBM-RL (Eye-Brain-Mouth Reinforcement Learning), a decoupled GRPO-based framework that explicitly separates observation ([perception]), reasoning ([think]), and utterance ([answer]). This structure promotes human-like sensory grounding by compelling the model to first attend to visual cues, then form internal interpretations, and finally generate context-appropriate dialogue. EBM-RL integrates four complementary rewards: (i) CLIP-based scene-text alignment to improve ambiance and emotion; (ii) a Perceptual-Cognitive reward that encourages [perception] and [think] processes that increase the likelihood of the reference response; (iii) answer accuracy to ensure faithfulness; and (iv) a dense format reward to enforce the desired structured output. Extensive experiments demonstrate that EBM-RL substantially outperforms text-only role-playing baselines and larger-scale vision-language models on our immersive role-playing benchmark, delivering simultaneous gains in visual-atmosphere consistency and character authenticity. Beyond the role-playing domain, EBM-RL also exhibits strong zero-shot generalization: without any additional fine-tuning, it consistently improves performance on out-of-domain VideoQA benchmarks. We additionally release an open-source dataset for video-grounded role-playing dialogue.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!