2601.12534v2 Jan 18, 2026 cs.CV

자가 지도 방식의 시선 운동 재구성: 감정 표현을 위한 방법

Encoding Emotion Through Self-Supervised Eye Movement Reconstruction

Marcus Ma
Marcus Ma
Citations: 8
h-index: 2
J. Prescott
J. Prescott
Citations: 16
h-index: 1
E. Zhou
E. Zhou
Citations: 0
h-index: 0
Tiantian Feng
Tiantian Feng
Citations: 1,028
h-index: 18
Kleanthis Avramidis
Kleanthis Avramidis
University of Southern California
Citations: 135
h-index: 8
Gabor Mihaly Toth
Gabor Mihaly Toth
Citations: 7
h-index: 1
Shrikanth Narayanan
Shrikanth Narayanan
Citations: 25
h-index: 2

감정 표현과 시선 운동 간의 관계는 잘 알려져 있으며, 기존 연구들은 시선 패턴이 감정의 신뢰할 수 있는 지표임을 보여줍니다. 그러나 대부분의 연구는 특수하고 고해상도의 시선 추적 장비를 사용하며, 이는 연구 결과의 활용 범위를 제한합니다. 본 연구에서는 자연스러운 환경에서 촬영된 저해상도 동영상을 사용하여 시선 운동을 통해 감정 표현의 다양한 특징을 예측하는 방법을 탐구합니다. USC Shoah Foundation의 Visual History Archive에 저장된, 아우슈비츠 수용소에서의 경험을 회상하는 홀로코스트 생존자들의 인터뷰 영상을 활용했습니다. 자연어 처리 모델의 사전 학습 방법을 참고하여, 비표시된 동영상을 효과적으로 활용할 수 있는 새로운 시선 감지 모델을 개발했습니다. 이 모델의 인코더 임베딩을 사용하여 감정 표현과 관련된 두 가지 후속 작업에 대한 모델을 미세 조정했습니다. 첫 번째 작업은 시선 운동과 음성으로부터 얻은 감정 추정치를 연결하는 것입니다. 두 번째 작업은 시선 운동을 사용하여 웃음, 울음/탄식, 한숨과 같은 세 가지 순간적인 감정 표현 행동을 예측하는 것입니다. 실험 결과, 개발된 모델은 감정 예측에 효과적이며, 사전 학습 성능과 감정 처리 성능 사이에 긍정적인 상관관계가 있음을 확인했습니다. 결론적으로, 자가 지도 방식의 시선 운동 재구성은 감정 정보를 효과적으로 표현하는 방법이라는 것을 알 수 있습니다.

Original Abstract

The relationship between emotional expression and eye movement is well-documented, with literature establishing gaze patterns are reliable indicators of emotion. However, most studies utilize specialized, high-resolution eye-tracking equipment, limiting the potential reach of findings. We investigate how eye movement can be used to predict multimodal markers of emotional expression from naturalistic, low-resolution videos. We utilize a collection of video interviews from the USC Shoah Foundation's Visual History Archive with Holocaust survivors as they recount their experiences in the Auschwitz concentration camp. Inspired by pretraining methods on language models, we develop a novel gaze detection model that uses self-supervised eye movement reconstruction that can effectively leverage unlabeled video. We use this model's encoder embeddings to fine-tune models on two downstream tasks related to emotional expression. The first is aligning eye movement with directional emotion estimates from speech. The second task is using eye gaze as a predictor of three momentary manifestations of emotional behaviors: laughing, crying/sobbing, and sighing. We find our new model is predictive of emotion outcomes and observe a positive correlation between pretraining performance and emotion processing performance for both experiments. We conclude self-supervised eye movement reconstruction is an effective method for encoding the affective signal they carry.

0 Citations
0 Influential
9 Altmetric
45.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!