배깅 기반 모델 병합을 통한 강력한 일반 텍스트 임베딩
Bagging-Based Model Merging for Robust General Text Embeddings
일반적인 텍스트 임베딩 모델은 다양한 자연어 처리 및 정보 검색 응용 분야의 기반이 되며, 일반적으로 광범위한 일반화 능력을 갖추도록 대규모 다중 작업 데이터셋으로 학습됩니다. 그러나 다양한 다중 작업 학습 전략이 실제로 어떻게 비교되는지, 그리고 새로운 도메인과 데이터 유형이 지속적으로 등장함에 따라 임베딩 모델을 효율적으로 어떻게 적응시킬 수 있는지에 대한 명확한 지침은 아직 부족합니다. 본 연구에서는 데이터 스케줄링 및 모델 병합이라는 두 가지 관점에서 텍스트 임베딩을 위한 다중 작업 학습에 대한 체계적인 연구를 제시합니다. 우리는 배치 수준 셔플링, 순차적 학습 방식, 두 단계 학습, 그리고 다양한 병합 방식을 비교한 결과, 간단한 배치 수준 셔플링이 일관되게 가장 우수한 전반적인 성능을 보임을 확인했습니다. 이는 작업 간의 충돌이 제한적이고 학습 데이터셋이 대체적으로 상호 보완적임을 시사합니다. 그러나 배치 수준 셔플링은 효과적임에도 불구하고 두 가지 실질적인 한계를 가지고 있습니다. 즉, 최적화되지 않은 외부 도메인 일반화 성능과 전체 재학습으로 인해 점진적 학습에 부적합하다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 샘플링된 부분 집합으로 학습된 여러 임베딩 모델을 단일 모델로 병합하여 강건성을 향상시키면서도 단일 모델 추론의 효율성을 유지하는 Bagging-based rObust mOdel Merging (BOOM) 방법을 제안합니다. 또한, BOOM은 기존 모델에 소량의 과거 데이터를 사용하여 학습된 가벼운 업데이트 모델을 병합함으로써 효율적인 점진적 업데이트를 자연스럽게 지원합니다. 다양한 임베딩 벤치마크를 사용한 실험 결과, BOOM은 전체 데이터셋 기반 배치 수준 셔플링보다 인-도메인 및 외부 도메인 성능 모두에서 일관되게 향상된 성능을 보이며, 점진적 학습 환경에서 학습 비용을 크게 줄입니다.
General-purpose text embedding models underpin a wide range of NLP and information retrieval applications, and are typically trained on large-scale multi-task corpora to encourage broad generalization. However, it remains unclear how different multi-task training strategies compare in practice, and how to efficiently adapt embedding models as new domains and data types continually emerge. In this work, we present a systematic study of multi-task training for text embeddings from two perspectives: data scheduling and model merging. We compare batch-level shuffling, sequential training variants, two-stage training, and multiple merging granularities, and find that simple batch-level shuffling consistently yields the strongest overall performance, suggesting that task conflicts are limited and training datasets are largely complementary. Despite its effectiveness, batch-level shuffling exhibits two practical limitations: suboptimal out-of-domain (OOD) generalization and poor suitability for incremental learning due to expensive full retraining. To address these issues, we propose Bagging-based rObust mOdel Merging (BOOM), which trains multiple embedding models on sampled subsets and merges them into a single model, improving robustness while retaining single-model inference efficiency. Moreover, BOOM naturally supports efficient incremental updates by training lightweight update models on new data with a small historical subset and merging them into the existing model. Experiments across diverse embedding benchmarks demonstrate that BOOM consistently improves both in-domain and OOD performance over full-corpus batch-level shuffling, while substantially reducing training cost in incremental learning settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.