2604.25834v1 Apr 28, 2026 cs.AI

행동 인지 생성 시퀀스 모델링을 활용한 짧은 동영상 추천

Action-Aware Generative Sequence Modeling for Short Video Recommendation

Ruiming Tang
Ruiming Tang
Citations: 64
h-index: 3
Han Li
Han Li
Citations: 5
h-index: 1
Chuan Luo
Chuan Luo
Citations: 54
h-index: 3
Wenhao Li
Wenhao Li
Citations: 6
h-index: 1
Zihan Lin
Zihan Lin
Citations: 2,332
h-index: 12
Zhengxiao Guo
Zhengxiao Guo
Citations: 81
h-index: 5
Jie Zhou
Jie Zhou
Citations: 19
h-index: 3
Shukai Liu
Shukai Liu
Citations: 384
h-index: 6
Chao Ma
Chao Ma
Citations: 14
h-index: 3
Yongqi Liu
Yongqi Liu
Citations: 0
h-index: 0

인터넷의 급속한 발전으로 인해 사용자는 온라인 콘텐츠 소비 플랫폼의 추천 정확도에 대한 기대가 높아지고 있습니다. 그러나 짧은 동영상은 종종 다양한 세그먼트를 포함하며, 사용자가 모든 세그먼트에 대해 동일한 태도를 갖는 것은 아닙니다. 기존의 이분 분류 추천 모델은 동영상을 단일한 전체 단위로 취급하기 때문에, 이러한 미묘한 선호도를 정확하게 파악하는 데 한계가 있습니다. 본 논문에서는 사용자 소비가 시간 순서에 따른 과정이라는 점을 고려하여, 통계적 분석 및 행동 패턴 검토를 통해 사용자 행동의 타이밍이 다양한 의도를 나타낼 수 있음을 보여줍니다. 이러한 통찰력을 바탕으로, 본 논문에서는 사용자 행동을 시간 축을 따라 세분화하고, 이를 연결하여 통합적으로 처리하고 예측하는 새로운 모델링 패러다임인 '행동 인지 생성 시퀀스 네트워크 (A2Gen)'를 제안합니다. 먼저, 항목별 컨텍스트 특징이 풍부한 행동 시퀀스를 모델링하기 위해 '컨텍스트 인지 어텐션 모듈 (CAM)'을 도입합니다. 이어서, 사용자의 과거 행동으로부터 시간적 행동 패턴을 학습하기 위해 '계층적 시퀀스 인코더 (HSE)'를 개발합니다. 마지막으로, CAM을 활용하여 행동 시퀀스 생성을 위한 모듈인 '행동 시퀀스 오토 회귀 생성기 (AAG)'를 설계합니다. Kuaishou 데이터셋 및 Tmall 공개 데이터셋에 대한 광범위한 오프라인 실험을 통해, 제안된 모델의 우수성을 입증했습니다. 또한, Kuaishou 플랫폼에 배포된 대규모 온라인 A/B 테스트를 통해, 순차적 정보를 활용하여 기존 방법보다 다중 작업 예측 성능이 크게 향상되었습니다. 구체적으로, 사용자 시청 시간은 0.34%, 상호 작용률은 8.1%, 전체 사용자 유지율 (LifeTime-7)은 0.162% 증가했으며, 모든 트래픽에서 성공적으로 배포되어 매일 4억 명 이상의 사용자를 대상으로 서비스를 제공하고 있습니다.

Original Abstract

With the rapid development of the Internet, users have increasingly higher expectations for the recommendation accuracy of online content consumption platforms. However, short videos often contain diverse segments, and users may not hold the same attitude toward all of them. Traditional binary-classification recommendation models, which treat a video as a single holistic entity, face limitations in accurately capturing such nuanced preferences. Considering that user consumption is a temporal process, this paper demonstrates that the timing of user actions can represent diverse intentions through statistical analysis and examination of action patterns. Based on this insight, we propose a novel modeling paradigm: Action-Aware Generative Sequence Network (A2Gen), which refines user actions along the temporal dimension and chains them into sequences for unified processing and prediction. First, we introduce the Context-aware Attention Module (CAM) to model action sequences enriched with item-specific contextual features. Building upon this, we develop the Hierarchical Sequence Encoder (HSE) to learn temporal action patterns from users' historical actions. Finally, through leveraging CAM, we design a module for action sequence generation: the Action-seq Autoregressive Generator (AAG). Extensive offline experiments on the Kuaishou's dataset and the Tmall public dataset demonstrate the superiority of our proposed model. Furthermore, through large-scale online A/B testing deployed on Kuaishou's platform, our model achieves significant improvements over baseline methods in multi-task prediction by leveraging sequential information. Specifically, it yields increases of 0.34% in user watch time, 8.1% in interaction rate, and 0.162% in overall user retention (LifeTime-7), leading to successful deployment across all traffic, serving over 400 million users every day.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!