ArcAligner: RAG 시스템에서 압축된 컨텍스트 임베딩을 위한 적응형 재귀 정렬기
ArcAligner: Adaptive Recursive Aligner for Compressed Context Embeddings in RAG
검색 증강 생성(RAG)은 LLM의 정확성을 높이는 데 도움이 되지만, 긴 문서를 프롬프트에 입력하면 모델의 속도가 느려지고 비용이 증가합니다. 이러한 문제를 해결하기 위해 토큰 제거 및 요약부터 임베딩 기반 압축까지 다양한 컨텍스트 압축 방법이 연구되어 왔습니다. 연구자들은 이러한 문서를 더 작게 요약하거나 수학적 임베딩으로 변환하려고 시도했지만, 데이터 압축량이 증가할수록 LLM이 내용을 이해하기 어려워지는 문제가 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 언어 모델 레이어에 통합되어 모델이 고도로 압축된 컨텍스트 표현을 활용하여 후속 생성 작업을 수행하는 데 도움을 주는 경량 모듈인 ArcAligner (Adaptive recursive context *Aligner*)를 제안합니다. ArcAligner는 정보가 복잡할 때만 추가적인 처리 능력을 사용하는 적응형 '게이팅' 시스템을 활용하여 시스템의 속도를 유지합니다. 다양한 지식 집약적인 질의응답 벤치마크에서 ArcAligner는 동일한 압축률에서 기존 압축 방식보다 우수한 성능을 보이며, 특히 멀티홉 및 긴 꼬리 데이터셋에서 더욱 두드러진 성능 향상을 보입니다. 소스 코드는 공개적으로 이용 가능합니다.
Retrieval-Augmented Generation (RAG) helps LLMs stay accurate, but feeding long documents into a prompt makes the model slow and expensive. This has motivated context compression, ranging from token pruning and summarization to embedding-based compression. While researchers have tried ''compressing'' these documents into smaller summaries or mathematical embeddings, there is a catch: the more you compress the data, the more the LLM struggles to understand it. To address this challenge, we propose ArcAligner (Adaptive recursive context *Aligner*), a lightweight module integrated into the language model layers to help the model better utilize highly compressed context representations for downstream generation. It uses an adaptive ''gating'' system that only adds extra processing power when the information is complex, keeping the system fast. Across knowledge-intensive QA benchmarks, ArcAligner consistently beats compression baselines at comparable compression rates, especially on multi-hop and long-tail settings. The source code is publicly available.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.