검색 증강 생성(Retrieval-Augmented Generation)에서의 소프트 압축 재고: 쿼리에 조건부인 선택자 관점
Rethinking Soft Compression in Retrieval-Augmented Generation: A Query-Conditioned Selector Perspective
검색 증강 생성(RAG)은 대규모 언어 모델(LLM)을 외부 지식과 연결하여 웹 관련 작업에 널리 활용되지만, 과도한 컨텍스트 길이와 중복된 검색으로 인해 확장성에 어려움을 겪습니다. 최근 연구에서 소프트 컨텍스트 압축은 긴 문서를 압축된 임베딩으로 인코딩하여 이 문제를 해결하고자 하지만, 입력 쿼리에 대한 관련성을 고려하지 않고 모든 문서 정보를 압축하는 전체 압축 방식을 사용하기 때문에 종종 압축되지 않은 RAG보다 성능이 낮습니다. 본 연구에서는 이러한 패러다임을 분석하고 다음과 같은 두 가지 근본적인 한계를 밝혀냅니다. (I) 실현 불가능성: 전체 압축은 LLM의 하위 작업 생성 방식과 충돌합니다. (II) 불필요성: 전체 압축은 불필요하며 작업과 관련된 정보 밀도를 희석합니다. 이러한 통찰력을 바탕으로, 본 연구에서는 RAG를 위한 선택자 기반의 소프트 압축 프레임워크인 SeleCom을 소개합니다. SeleCom은 인코더의 역할을 쿼리에 조건부인 정보 선택자로 재정의합니다. 선택자는 디코더만으로 구성되며, 다양한 난이도의 합성 질의응답(QA) 데이터셋을 사용하여 커리큘럼 학습 방식으로 학습됩니다. 광범위한 실험 결과, SeleCom은 기존의 소프트 압축 방식보다 훨씬 뛰어난 성능을 보이며, 압축되지 않은 기본 모델과 경쟁력 있는 또는 우수한 성능을 달성하는 동시에 계산 및 지연 시간을 33.8%~84.6% 감소시킵니다.
Retrieval-Augmented Generation (RAG) effectively grounds Large Language Models (LLMs) with external knowledge and is widely applied to Web-related tasks. However, its scalability is hindered by excessive context length and redundant retrievals. Recent research on soft context compression aims to address this by encoding long documents into compact embeddings, yet they often underperform non-compressed RAG due to their reliance on auto-encoder-like full-compression that forces the encoder to compress all document information regardless of relevance to the input query. In this work, we conduct an analysis on this paradigm and reveal two fundamental limitations: (I) Infeasibility, full-compression conflicts with the LLM's downstream generation behavior; and (II) Non-necessity: full-compression is unnecessary and dilutes task-relevant information density. Motivated by these insights, we introduce SeleCom, a selector-based soft compression framework for RAG that redefines the encoder's role as query-conditioned information selector. The selector is decoder-only and is trained with a massive, diverse and difficulty-graded synthetic QA dataset with curriculum learning. Extensive experiments show that SeleCom significantly outperforms existing soft compression approaches and achieves competitive or superior performance to non-compression baselines, while reducing computation and latency by 33.8%~84.6%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.