MMGRid: 모델 병합을 통한 시간 정보를 고려하고 다양한 도메인을 포괄하는 생성형 추천 시스템
MMGRid: Navigating Temporal-aware and Cross-domain Generative Recommendation via Model Merging
모델 병합(MM)은 원본 학습 데이터에 대한 접근 없이 또는 비용이 많이 드는 재학습 없이 여러 전문 모델을 통합하는 효율적인 방법입니다. MM은 컴퓨터 비전 분야에서 성공적인 결과를 보여주었지만, 추천 시스템(RS)에서의 역할은 아직 충분히 연구되지 않았습니다. 최근, 생성형 추천(GR)은 RS 분야의 새로운 패러다임으로 부상했으며, 모델 규모가 빠르게 증가하고 상당한 계산 비용이 발생하므로, MM은 비용 효율적인 배포 시나리오에 특히 적합합니다. 본 연구에서는 맥락적 관점에서 GR에 대한 MM의 첫 번째 체계적인 연구를 제시합니다. 우리는 실제 환경에서 발생하는 근본적이지만 과소 연구된 과제에 초점을 맞춥니다. 즉, 시간의 흐름에 따라 변화하는 사용자 행동과 이질적인 응용 도메인으로 인해 발생하는 다양한 실제 맥락에 특화된 생성형 추천 모델을 어떻게 병합할 수 있는가 하는 문제입니다. 이를 위해, 우리는 MMGRid라는 통일된 프레임워크를 제안합니다. MMGRid는 시간적 변화와 도메인 다양성으로 인해 유도된 다양한 맥락에서 학습된 GR 모델의 구조화된 맥락별 그리드입니다. 모든 모델은 공유된 기본 LLM에서 파생되었지만, 맥락별 데이터로 미세 조정되어 GR 패러다임 및 병합 알고리즘 전반에 걸쳐 체계적인 분석을 위한 현실적이고 제어된 모델 공간을 형성합니다. 우리의 연구는 몇 가지 중요한 통찰력을 제공합니다. 첫째, LLM에서 학습된 GR 모델은 토큰 분포 변화 및 목표 함수 차이로 인해 병합 과정에서 매개변수 충돌을 일으킬 수 있으며, 이러한 충돌은 기본 모델 교체를 통해 작업 관련 매개변수와 맥락별 매개변수의 변화를 분리함으로써 완화될 수 있습니다. 둘째, 다양한 맥락에서의 점진적인 학습은 최근 정보 편향을 유발할 수 있으며, 이는 가중 맥락별 병합을 통해 효과적으로 균형을 맞출 수 있습니다. 주목할 점은 최적의 병합 가중치가 맥락에 따라 달라지는 상호 작용 특성과 상관관계가 있으며, 이는 실제 배포 시 가중치 선택에 대한 실질적인 지침을 제공한다는 것입니다.
Model merging (MM) offers an efficient mechanism for integrating multiple specialized models without access to original training data or costly retraining. While MM has demonstrated success in domains like computer vision, its role in recommender systems (RSs) remains largely unexplored. Recently, Generative Recommendation (GR) has emerged as a new paradigm in RSs, characterized by rapidly growing model scales and substantial computational costs, making MM particularly appealing for cost-sensitive deployment scenarios. In this work, we present the first systematic study of MM in GR through a contextual lens. We focus on a fundamental yet underexplored challenge in real-world: how to merge generative recommenders specialized to different real-world contexts, arising from temporal evolving user behaviors and heterogeneous application domains. To this end, we propose a unified framework MMGRid, a structured contextual grid of GR checkpoints that organizes models trained under diverse contexts induced by temporal evolution and domain diversity. All checkpoints are derived from a shared base LLM but fine-tuned on context-specific data, forming a realistic and controlled model space for systematically analyzing MM across GR paradigms and merging algorithms. Our investigation reveals several key insights. First, training GR models from LLMs can introduce parameter conflicts during merging due to token distribution shifts and objective disparities; such conflicts can be alleviated by disentangling task-aware and context-specific parameter changes via base model replacement. Second, incremental training across contexts induces recency bias, which can be effectively balanced through weighted contextual merging. Notably, we observe that optimal merging weights correlate with context-dependent interaction characteristics, offering practical guidance for weight selection in real-world deployments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.