암묵적 사실 토큰을 활용한 분리된 추론 (DRIFT): 효율적인 장문 맥락 추론을 위한 이중 모델 프레임워크
Decoupled Reasoning with Implicit Fact Tokens (DRIFT): A Dual-Model Framework for Efficient Long-Context Inference
대규모 언어 모델(LLM)에 방대한 양의 동적 지식을 통합하는 것은 사실 데이터와 추론 패턴의 내재적인 복잡성으로 인해 여전히 중요한 과제입니다. 기존의 비매개변수 검색 증강 생성(RAG)부터 매개변수 지식 편집에 이르기까지의 솔루션은 종종 유한한 맥락 창, 검색기의 노이즈 또는 재앙적 망각의 위험으로 인해 실질적인 제약을 받습니다. 본 논문에서는 지식 추출과 추론 과정을 명시적으로 분리하도록 설계된 새로운 이중 모델 아키텍처인 DRIFT를 제안합니다. DRIFT는 정적 프롬프트 압축과는 달리, 가벼운 지식 모델을 사용하여 쿼리에 따라 문서 조각을 암묵적 사실 토큰으로 동적으로 압축합니다. 이러한 밀집된 표현은 추론 모델의 임베딩 공간으로 투영되어 원시 텍스트를 대체하면서 추론 정확도를 유지합니다. 광범위한 실험 결과, DRIFT는 장문 맥락 작업에서 성능을 크게 향상시키며, 유사한 크기의 모델 중에서 강력한 기본 모델을 능가하는 것으로 나타났습니다. 우리 접근 방식은 LLM의 효과적인 맥락 창과 추론 능력을 확장하는 확장 가능하고 효율적인 패러다임을 제공합니다. 저희 코드는 https://github.com/Lancelot-Xie/DRIFT 에서 확인할 수 있습니다.
The integration of extensive, dynamic knowledge into Large Language Models (LLMs) remains a significant challenge due to the inherent entanglement of factual data and reasoning patterns. Existing solutions, ranging from non-parametric Retrieval-Augmented Generation (RAG) to parametric knowledge editing, are often constrained in practice by finite context windows, retriever noise, or the risk of catastrophic forgetting. In this paper, we propose DRIFT, a novel dual-model architecture designed to explicitly decouple knowledge extraction from the reasoning process. Unlike static prompt compression, DRIFT employs a lightweight knowledge model to dynamically compress document chunks into implicit fact tokens conditioned on the query. These dense representations are projected into the reasoning model's embedding space, replacing raw, redundant text while maintaining inference accuracy. Extensive experiments show that DRIFT significantly improves performance on long-context tasks, outperforming strong baselines among comparably sized models. Our approach provides a scalable and efficient paradigm for extending the effective context window and reasoning capabilities of LLMs. Our code is available at https://github.com/Lancelot-Xie/DRIFT.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.