2602.11799v1 Feb 12, 2026 cs.AI

Hi-SAM: 대규모 추천을 위한 계층적 구조 인식 멀티모달 프레임워크

Hi-SAM: A Hierarchical Structure-Aware Multi-modal Framework for Large-Scale Recommendation

Pin-Yu Pan
Pin-Yu Pan
Citations: 71
h-index: 2
Hongxiang Chen
Hongxiang Chen
Citations: 1
h-index: 1
Tingting Zhou
Tingting Zhou
Citations: 38
h-index: 2
Peiyao Lu
Peiyao Lu
Citations: 0
h-index: 0
Tingting Fei
Tingting Fei
Citations: 41
h-index: 2
Chuan Luo
Chuan Luo
Citations: 54
h-index: 3

아이템들이 텍스트나 이미지와 같은 풍부한 속성을 가짐에 따라 멀티모달 추천이 주목받고 있다. 시맨틱 ID(Semantic ID) 기반 접근법은 이러한 정보를 압축적인 토큰으로 효과적으로 이산화한다. 그러나 두 가지 과제가 여전히 존재한다. (1) 최적화되지 않은 토큰화: 기존 방법(예: RQ-VAE)은 공유된 교차 모달 의미와 모달리티 고유의 세부 정보를 분리(disentanglement)하지 못해 중복이나 붕괴를 초래한다. (2) 아키텍처-데이터 불일치: 바닐라 트랜스포머는 시맨틱 ID를 평면적인 스트림으로 취급하여 사용자 상호작용, 아이템, 토큰 간의 계층 구조를 무시한다. 아이템을 여러 토큰으로 확장하면 길이와 노이즈가 증폭되어, 전체적인 의미보다 국소적인 세부 사항에 주의(attention)가 편향된다. 우리는 두 가지 설계를 포함하는 계층적 구조 인식 멀티모달 프레임워크인 Hi-SAM을 제안한다. (1) 분리형 시맨틱 토크나이저(DST): 기하학적 인식 정렬을 통해 모달리티를 통합하고, 거친 수준에서 미세한 수준(coarse-to-fine)으로 이어지는 전략을 통해 양자화한다. 공유 코드북은 공통된 정보를 추출하고, 모달리티별 코드북은 잔차(residual)로부터 미세한 차이를 복원하며, 이는 상호 정보 최소화를 통해 강화된다. (2) 계층적 메모리-앵커 트랜스포머(HMAT): 계층적 RoPE를 통해 위치 인코딩을 아이템 간 및 아이템 내 하위 공간으로 분할하여 계층 구조를 복원한다. 또한 앵커 토큰을 삽입하여 아이템을 압축된 메모리로 응축시키며, 현재 아이템에 대해서는 세부 정보를 유지하되 과거 기록에는 압축된 요약을 통해서만 접근하도록 한다. 실제 데이터셋에 대한 실험 결과, SOTA 베이스라인 대비 일관된 성능 향상을 보였으며, 특히 콜드 스타트 시나리오에서 두드러졌다. 수백만 명의 사용자에게 서비스되는 대규모 소셜 플랫폼에 배포된 Hi-SAM은 핵심 온라인 지표에서 6.55%의 상승을 달성했다.

Original Abstract

Multi-modal recommendation has gained traction as items possess rich attributes like text and images. Semantic ID-based approaches effectively discretize this information into compact tokens. However, two challenges persist: (1) Suboptimal Tokenization: existing methods (e.g., RQ-VAE) lack disentanglement between shared cross-modal semantics and modality-specific details, causing redundancy or collapse; (2) Architecture-Data Mismatch: vanilla Transformers treat semantic IDs as flat streams, ignoring the hierarchy of user interactions, items, and tokens. Expanding items into multiple tokens amplifies length and noise, biasing attention toward local details over holistic semantics. We propose Hi-SAM, a Hierarchical Structure-Aware Multi-modal framework with two designs: (1) Disentangled Semantic Tokenizer (DST): unifies modalities via geometry-aware alignment and quantizes them via a coarse-to-fine strategy. Shared codebooks distill consensus while modality-specific ones recover nuances from residuals, enforced by mutual information minimization; (2) Hierarchical Memory-Anchor Transformer (HMAT): splits positional encoding into inter- and intra-item subspaces via Hierarchical RoPE to restore hierarchy. It inserts Anchor Tokens to condense items into compact memory, retaining details for the current item while accessing history only through compressed summaries. Experiments on real-world datasets show consistent improvements over SOTA baselines, especially in cold-start scenarios. Deployed on a large-scale social platform serving millions of users, Hi-SAM achieved a 6.55% gain in the core online metric.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!