몰입형 비디오 역할극을 위한 보상 분해 강화 학습
Reward-Decomposed Reinforcement Learning for Immersive Video Role-Playing
텍스트 기반 역할극 모델은 캐릭터의 스타일을 모방할 수 있지만, 가상 현실(VR) 게임 및 인터랙티브 내러티브와 같은 몰입형 애플리케이션에 필수적인 장면의 분위기와 변화하는 긴장감을 제대로 반영하지 못하는 경우가 많습니다. 본 연구에서는 비디오 기반 역할극 대화에 대한 연구를 진행하고, 관찰([지각]), 추론([생각]), 발화([응답]) 과정을 명시적으로 분리하는 GRPO 기반 프레임워크인 EBM-RL (Eye-Brain-Mouth Reinforcement Learning)을 소개합니다. 이러한 구조는 모델이 먼저 시각적 단서에 주의를 기울이도록 유도하여 인간과 유사한 감각적 기반을 조성하고, 내부 해석을 형성한 후 문맥에 적합한 대화를 생성하도록 합니다. EBM-RL은 다음과 같은 네 가지 상호 보완적인 보상을 통합합니다. (i) CLIP 기반 장면-텍스트 정렬을 통해 분위기와 감정을 향상시키고, (ii) 참조 응답의 가능성을 높이는 [지각] 및 [생각] 과정을 장려하는 인지적 보상을 제공하며, (iii) 답변 정확성을 확보하고, (iv) 원하는 구조화된 출력을 강제하는 밀집 형식이 보상을 사용합니다. 다양한 실험 결과, EBM-RL은 기존의 텍스트 기반 역할극 모델 및 대규모 비전-언어 모델에 비해 몰입형 역할극 벤치마크에서 현저히 우수한 성능을 보이며, 시각적-분위기 일관성과 캐릭터의 진정성을 동시에 향상시킵니다. 역할극 영역을 넘어, EBM-RL은 추가적인 미세 조정 없이도 VideoQA 벤치마크에서 일관되게 성능을 향상시키는 강력한 제로샷 일반화 능력을 보여줍니다. 또한, 비디오 기반 역할극 대화를 위한 공개 데이터셋을 제공합니다.
Text-based role-playing models can imitate character styles, yet they often fail to reflect a scene's atmosphere and evolving tension, both essential for immersive applications such as Virtual Reality (VR) games and interactive narratives. We study video-grounded role-playing dialogue and introduce EBM-RL (Eye-Brain-Mouth Reinforcement Learning), a decoupled GRPO-based framework that explicitly separates observation ([perception]), reasoning ([think]), and utterance ([answer]). This structure promotes human-like sensory grounding by compelling the model to first attend to visual cues, then form internal interpretations, and finally generate context-appropriate dialogue. EBM-RL integrates four complementary rewards: (i) CLIP-based scene-text alignment to improve ambiance and emotion; (ii) a Perceptual-Cognitive reward that encourages [perception] and [think] processes that increase the likelihood of the reference response; (iii) answer accuracy to ensure faithfulness; and (iv) a dense format reward to enforce the desired structured output. Extensive experiments demonstrate that EBM-RL substantially outperforms text-only role-playing baselines and larger-scale vision-language models on our immersive role-playing benchmark, delivering simultaneous gains in visual-atmosphere consistency and character authenticity. Beyond the role-playing domain, EBM-RL also exhibits strong zero-shot generalization: without any additional fine-tuning, it consistently improves performance on out-of-domain VideoQA benchmarks. We additionally release an open-source dataset for video-grounded role-playing dialogue.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.