추론 모델이 임베딩 모델을 향상시키는가?
Do Reasoning Models Enhance Embedding Models?
최첨단 임베딩 모델들은 점점 더 대조 학습(contrastive learning)을 통해 조정된 디코더 전용 거대언어모델(LLM) 백본에서 파생되고 있다. 검증 가능한 보상을 통한 강화 학습(RLVR)으로 훈련된 추론 모델이 등장함에 따라, 이러한 모델이 임베딩 초기화로 사용될 때 향상된 추론 능력이 더 우수한 의미적 표현으로 이어지는지에 대한 자연스러운 의문이 제기된다. 기대와 달리, MTEB와 BRIGHT에 대한 우리의 평가는 **무효 효과(null effect)**를 드러냈다. 동일한 훈련 방식으로 학습시켰을 때, RLVR로 조정된 백본으로 초기화된 임베딩 모델들은 기본 모델에 비해 일관된 성능 우위를 보이지 않았다. 이 역설을 해석하기 위해, 우리는 유사도를 표현, 기하학, 기능 수준에서 분해하는 프레임워크인 **계층적 표현 유사도 분석(HRSA)**을 도입한다. HRSA는 RLVR이 비가역적인 잠재 매니폴드의 국소적 기하학 재구성과 가역적인 좌표 기저 이동을 유발하지만, 전역적 매니폴드 기하학과 선형 판독(linear readout)은 보존한다는 것을 밝혀냈다. 결과적으로, 후속 대조 학습은 기본 모델과 추론 모델로 초기화된 모델 간의 강력한 정렬을 유도하며, 우리는 이 현상을 **매니폴드 재정렬(Manifold Realignment)**이라 칭한다. 실증적으로, 우리의 연구 결과는 지도 미세 조정(SFT)과 달리 RLVR은 의미적 지형 자체를 근본적으로 재구조화하기보다는 기존의 의미적 지형 내에서 궤적을 최적화한다는 것을 시사한다.
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.