2601.02125v1 Jan 05, 2026 cs.RO

SingingBot: 아바타 기반 로봇 얼굴 표정 노래 성능 시스템

SingingBot: An Avatar-Driven System for Robotic Face Singing Performance

Zhuoxiong Xu
Zhuoxiong Xu
Citations: 15
h-index: 1
Xuanchen Li
Xuanchen Li
Citations: 20
h-index: 2
Yuhao Cheng
Yuhao Cheng
Citations: 51
h-index: 5
Fei Xu
Fei Xu
Shanghai Jiao Tong University
Citations: 8
h-index: 1
Yichao Yan
Yichao Yan
Citations: 2,780
h-index: 27
Xiaokang Yang
Xiaokang Yang
Citations: 159
h-index: 7

로봇 얼굴에 노래 기능을 부여하는 것은 공감적인 인간-로봇 상호작용에 매우 중요합니다. 그러나 기존의 로봇 얼굴 제어 연구는 주로 대화 또는 정적인 표정 모방에 초점을 맞추고 있으며, 노래에서 요구되는 지속적인 감정 표현과 일관성을 충족하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 매력적인 로봇 노래 성능을 위한 새로운 아바타 기반 프레임워크를 제안합니다. 먼저, 풍부한 인간 특성을 내장한 초상화 비디오 생성 모델을 활용하여 생생한 노래 아바타를 합성하고, 이를 통해 신뢰할 수 있는 표정과 감정 지침을 제공합니다. 그 후, 이러한 얼굴 특징을 의미론적으로 지향하는 매핑 함수를 통해 로봇에 전달하며, 이를 통해 광범위한 표정 공간을 활용합니다. 또한, 로봇 노래의 감정적 풍부성을 정량적으로 평가하기 위해, 감정 역동 범위(Emotion Dynamic Range)라는 지표를 제안하여, 감정의 폭이 넓은 것이 매력적인 공연에 필수적임을 보여줍니다. 종합적인 실험 결과, 우리 방법은 풍부한 감정 표현을 달성하면서 입술과 오디오의 동기화를 유지하며, 기존 접근 방식보다 훨씬 우수한 성능을 보여줍니다.

Original Abstract

Equipping robotic faces with singing capabilities is crucial for empathetic Human-Robot Interaction. However, existing robotic face driving research primarily focuses on conversations or mimicking static expressions, struggling to meet the high demands for continuous emotional expression and coherence in singing. To address this, we propose a novel avatar-driven framework for appealing robotic singing. We first leverage portrait video generation models embedded with extensive human priors to synthesize vivid singing avatars, providing reliable expression and emotion guidance. Subsequently, these facial features are transferred to the robot via semantic-oriented mapping functions that span a wide expression space. Furthermore, to quantitatively evaluate the emotional richness of robotic singing, we propose the Emotion Dynamic Range metric to measure the emotional breadth within the Valence-Arousal space, revealing that a broad emotional spectrum is crucial for appealing performances. Comprehensive experiments prove that our method achieves rich emotional expressions while maintaining lip-audio synchronization, significantly outperforming existing approaches.

1 Citations
0 Influential
13.5 Altmetric
68.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!