생성형 추천을 위한 언어 모델에서 새로운 어휘에 대한 기반 토큰 초기화
Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation
언어 모델(LM)은 점차적으로 도메인 특정 작업, 예를 들어 생성형 추천에서의 의미-ID 토큰과 같은 새로운 학습 가능한 어휘 토큰으로 확장되고 있습니다. 일반적인 방법은 이러한 새로운 토큰을 기존 어휘 임베딩의 평균으로 초기화한 다음, 감독 학습을 통해 해당 표현을 학습하는 것입니다. 본 연구에서는 이러한 전략에 대한 체계적인 분석을 제시합니다. 스펙트럴 및 기하학적 분석을 통해 평균 초기화가 모든 새로운 토큰을 퇴화된 부분 공간으로 만들고, 이후의 미세 조정이 완전히 복구하기 어려운 토큰 간의 구분을 지워버린다는 것을 보여줍니다. 이러한 결과는 언어 모델을 새로운 어휘로 확장할 때 *토큰 초기화*가 중요한 병목 현상이라는 것을 시사합니다. 이러한 진단에 따라, 우리는 *기반 토큰 초기화 가설*을 제안합니다. 즉, 미세 조정 전에 새로운 토큰을 사전 학습된 임베딩 공간에 언어적으로 기반을 두는 것이 모델이 일반적인 지식을 새로운 토큰 도메인에 활용하는 데 더 효과적이라는 것입니다. 우리는 이 가설을 GTI(Grounded Token Initialization)라는 가벼운 기반 단계로 구현했습니다. GTI는 미세 조정 전에, 쌍으로 이루어진 언어적 감독 정보만 사용하여 새로운 토큰을 사전 학습된 임베딩 공간의 뚜렷하고 의미 있는 위치로 매핑합니다. GTI는 단순하지만, 산업 규모 및 공개 데이터 세트를 포함한 다양한 생성형 추천 벤치마크에서 평균 초기화 및 기존의 보조 작업 적응 방법보다 우수한 성능을 보였습니다. 추가 분석 결과, 기반 임베딩은 미세 조정을 통해 유지되는 풍부한 토큰 간 구조를 생성하며, 이는 초기화 품질이 어휘 확장에서 중요한 병목 현상이라는 가설을 뒷받침합니다.
Language models (LMs) are increasingly extended with new learnable vocabulary tokens for domain-specific tasks, such as Semantic-ID tokens in generative recommendation. The standard practice initializes these new tokens as the mean of existing vocabulary embeddings, then relies on supervised fine-tuning to learn their representations. We present a systematic analysis of this strategy: through spectral and geometric diagnostics, we show that mean initialization collapses all new tokens into a degenerate subspace, erasing inter-token distinctions that subsequent fine-tuning struggles to fully recover. These findings suggest that \emph{token initialization} is a key bottleneck when extending LMs with new vocabularies. Motivated by this diagnosis, we propose the \emph{Grounded Token Initialization Hypothesis}: linguistically grounding novel tokens in the pretrained embedding space before fine-tuning better enables the model to leverage its general-purpose knowledge for novel-token domains. We operationalize this hypothesis as GTI (Grounded Token Initialization), a lightweight grounding stage that, prior to fine-tuning, maps new tokens to distinct, semantically meaningful locations in the pretrained embedding space using only paired linguistic supervision. Despite its simplicity, GTI outperforms both mean initialization and existing auxiliary-task adaptation methods in the majority of evaluation settings across multiple generative recommendation benchmarks, including industry-scale and public datasets. Further analyses show that grounded embeddings produce richer inter-token structure that persists through fine-tuning, corroborating the hypothesis that initialization quality is a key bottleneck in vocabulary extension.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.