2604.15718v1 Apr 17, 2026 cs.CV

NeuroLip: 이벤트 기반의 시공간 학습 프레임워크 - 장면 간 일반화 성능을 갖춘 입술 움직임 기반 시각 화자 인식

NeuroLip: An Event-driven Spatiotemporal Learning Framework for Cross-Scene Lip-Motion-based Visual Speaker Recognition

S. Picek
S. Picek
Citations: 6,373
h-index: 40
Jung-Chun Yao
Jung-Chun Yao
Citations: 0
h-index: 0
Wenye Liu
Wenye Liu
Citations: 17
h-index: 2
Yue Zheng
Yue Zheng
Citations: 93
h-index: 5

입술 움직임을 기반으로 한 시각 화자 인식은 소리가 없거나 사용 불가능한 상황에서도 효과적인, 비접촉형 생체 인식 기술입니다. 기존 방법들이 외형에 크게 의존하는 반면, 입술 움직임은 일관된 발음 패턴과 근육 협응에 의해 결정되는 주체 고유의 행동 역학을 담고 있어, 환경 변화에 덜 민감합니다. 하지만 기존 프레임 기반 카메라로는 이러한 미세하고 강력한 역학을 포착하기 어렵다는 한계가 있습니다. 본 논문에서는 이러한 문제를 해결하고 입술 움직임의 고유한 안정성을 활용하기 위해, NeuroLip이라는 이벤트 기반 프레임워크를 제안합니다. NeuroLip은 엄격하지만 실용적인 장면 간 일반화 프로토콜 하에서 작동합니다: 훈련은 단일 제어 조건에서 이루어지지만, 인식은 새로운 시점 및 조명 조건에서도 잘 작동해야 합니다. NeuroLip은 1) 적응적 이벤트 가중치를 사용하는 시간 인지 보クセル 인코딩 모듈, 2) 노이즈를 억제하면서 수직 구조적 움직임 정보를 보존하여 차별적인 행동 패턴을 증폭하는 구조 인식 공간 증폭기, 그리고 3) 이벤트 극성에 내재된 움직임 방향 정보를 유지하는 극성 일관성 정규화 메커니즘을 특징으로 합니다. 체계적인 평가를 위해, 50명의 피험자를 대상으로 4가지 다른 시점 및 조명 조건에서 촬영된 이벤트 기반 입술 움직임 데이터셋인 DVSpeaker를 공개합니다. 광범위한 실험 결과, NeuroLip은 동일한 장면에서는 거의 완벽한 정확도를 달성하고, 다양한 장면에서도 강력한 일반화 성능을 보이며, 기존 방법보다 최소 8.54% 이상 높은 정확도를 달성했습니다 (새로운 시점에서는 71% 이상, 저조도 조건에서는 76% 이상). 데이터셋 및 코드는 다음 주소에서 공개됩니다: https://github.com/JiuZeongit/NeuroLip.

Original Abstract

Visual speaker recognition based on lip motion offers a silent, hands-free, and behavior-driven biometric solution that remains effective even when acoustic cues are unavailable. Compared to traditional methods that rely heavily on appearance-dependent representations, lip motion encodes subject-specific behavioral dynamics driven by consistent articulation patterns and muscle coordination, offering inherent stability across environmental changes. However, capturing these robust, fine-grained dynamics is challenging for conventional frame-based cameras due to motion blur and low dynamic range. To exploit the intrinsic stability of lip motion and address these sensing limitations, we propose NeuroLip, an event-based framework that captures fine-grained lip dynamics under a strict yet practical cross-scene protocol: training is performed under a single controlled condition, while recognition must generalize to unseen viewing and lighting conditions. NeuroLip features a 1) Temporal-aware Voxel Encoding module with adaptive event weighting, 2) Structure-aware Spatial Enhancer that amplifies discriminative behavioral patterns by suppressing noise while preserving vertically structured motion information, and 3) Polarity Consistency Regularization mechanism to retain motion-direction cues encoded in event polarities. To facilitate systematic evaluation, we introduce DVSpeaker, a comprehensive event-based lip-motion dataset comprising 50 subjects recorded under four distinct viewpoint and illumination scenarios. Extensive experiments demonstrate that NeuroLip achieves near-perfect matched-scene accuracy and robust cross-scene generalization, attaining over 71% accuracy on unseen viewpoints and nearly 76% under low-light conditions, outperforming representative existing methods by at least 8.54%. The dataset and code are publicly available at https://github.com/JiuZeongit/NeuroLip.

0 Citations
0 Influential
43.4657359028 Altmetric
217.3 Score
Original PDF
1

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!