증거 증류 및 Write-Back 보강을 통한 지식 베이스 학습
Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment
검색 증강 생성(RAG) 시스템의 지식 베이스는 일반적으로 한 번 구축된 후 수정되지 않지만, 쿼리에 필요한 사실들은 종종 여러 문서에 분산되어 있으며 관련 없는 내용 속에 숨겨져 있습니다. 우리는 지식 베이스를 학습 가능한 구성 요소로 간주해야 한다고 주장하며, WriteBack-RAG이라는 프레임워크를 제안합니다. WriteBack-RAG은 레이블이 지정된 예제를 사용하여 검색이 성공하는 위치를 파악하고, 관련 문서를 분리한 다음, 이를 원래 코퍼스에 함께 인덱싱되는 간결한 지식 단위로 증류합니다. 이 방법은 코퍼스만 수정하므로, 오프라인 전처리 단계로 한 번만 적용할 수 있으며, 모든 RAG 파이프라인과 결합될 수 있습니다. 네 가지 RAG 방법, 여섯 가지 벤치마크, 두 가지 LLM 백본을 대상으로 평가한 결과, WriteBack-RAG은 모든 평가 환경에서 성능 향상을 보였으며, 평균 향상률은 +2.14%였습니다. 교차 방법 전이 실험 결과, 증류된 지식은 이를 생성하는 데 사용된 RAG 파이프라인 외의 다른 RAG 파이프라인에도 이점을 제공하는 것으로 나타났습니다. 이는 성능 향상이 코퍼스 자체에 기인한다는 것을 확인시켜 줍니다.
The knowledge base in a retrieval-augmented generation (RAG) system is typically assembled once and never revised, even though the facts a query requires are often fragmented across documents and buried in irrelevant content. We argue that the knowledge base should be treated as a trainable component and propose WriteBack-RAG, a framework that uses labeled examples to identify where retrieval succeeds, isolate the relevant documents, and distill them into compact knowledge units that are indexed alongside the original corpus. Because the method modifies only the corpus, it can be applied once as an offline preprocessing step and combined with any RAG pipeline. Across four RAG methods, six benchmarks, and two LLM backbones, WriteBack-RAG improves every evaluated setting, with gains averaging +2.14%. Cross-method transfer experiments further show that the distilled knowledge benefits RAG pipelines other than the one used to produce it, confirming that the improvement resides in the corpus itself.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.