모듈화된 표현 압축: 효율적이고 효과적인 추천을 위한 LLM(대규모 언어 모델) 적용
Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations
최근 대규모 언어 모델(LLM)은 추천 시스템(RS)의 발전에 기여했으며, 일부 연구에서는 LLM을 산업용 RS에 통합하는 방법을 모색하고 있습니다. 대부분의 접근 방식은 LLM을 오프라인에서 사용하여 RS를 위한 증강된 표현을 생성하고 미리 저장하지만, LLM에서 생성되는 고차원 표현은 상당한 저장 및 계산 비용을 초래합니다. 따라서 LLM 표현을 효과적으로 압축하는 것이 중요합니다. 그러나 표현 압축 과정에서 직관에 어긋나는 현상인 '중간 계층 표현 우위(MRA)'를 발견했습니다. 즉, LLM의 중간 계층에서 생성된 표현이 추천 작업에서 최종 계층의 표현보다 더 우수한 성능을 보이는 것입니다. 이러한 최종 계층의 성능 저하는 일반적으로 최종 계층을 압축하는 기존 압축 방법을 최적 이하로 만듭니다. 우리는 모듈성 이론에 근거하여 LLM이 자발적으로 내부적인 기능적 모듈성을 개발하고, 최종 계층이 프록시 학습 작업에 특화되도록 강제한다는 것을 해석했습니다. 따라서, 우리는 LLM의 모듈성을 명시적으로 제어하기 위해 '모듈화된 표현 압축(MARC)'을 제안합니다. 먼저, 모듈 조정(Modular Adjustment)은 압축 및 작업 적응 모듈을 명시적으로 도입하여 LLM이 순전히 표현 학습 모듈로 작동하도록 합니다. 다음으로, 모듈 작업 분리(Modular Task Decoupling)는 정보 제약 및 다양한 네트워크 구조를 사용하여 각 모듈을 특정 작업에 연결합니다. 광범위한 실험을 통해 MARC이 MRA 문제를 해결하고 효율적인 표현을 생성한다는 것을 확인했습니다. 특히, MARC은 대규모 상업 검색 광고 시나리오에서 온라인 A/B 테스트를 통해 eCPM(effective Cost Per Mille)을 2.82% 향상시켰습니다.
Recently, large language models (LLMs) have advanced recommendation systems (RSs), and recent works have begun to explore how to integrate LLMs into industrial RSs. While most approaches deploy LLMs offline to generate and pre-cache augmented representations for RSs, high-dimensional representations from LLMs introduce substantial storage and computational costs. Thus, it is crucial to compress LLM representations effectively. However, we identify a counterintuitive phenomenon during representation compression: Mid-layer Representation Advantage (MRA), where representations from middle layers of LLMs outperform those from final layers in recommendation tasks. This degraded final layer renders existing compression methods, which typically compress on the final layer, suboptimal. We interpret this based on modularity theory that LLMs develop spontaneous internal functional modularity and force the final layer to specialize in the proxy training task. Thus, we propose \underline{M}odul\underline{a}r \underline{R}epresentation \underline{C}ompression (MARC) to explicitly control the modularity of LLMs. First, Modular Adjustment explicitly introduces compression and task adaptation modules, enabling the LLM to operate strictly as a representation-learning module. Next, to ground each module to its specific task, Modular Task Decoupling uses information constraints and different network structures to decouple tasks. Extensive experiments validate that MARC addresses MRA and produces efficient representations. Notably, MARC achieved a 2.82% eCPM lift in an online A/B test within a large-scale commercial search advertising scenario.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.