2602.10021v1 Feb 10, 2026 cs.CL

암묵적 사실 토큰을 활용한 분리된 추론 (DRIFT): 효율적인 장문 맥락 추론을 위한 이중 모델 프레임워크

Decoupled Reasoning with Implicit Fact Tokens (DRIFT): A Dual-Model Framework for Efficient Long-Context Inference

Chaochao Lu
Chaochao Lu
Citations: 27
h-index: 3
Xia Hu
Xia Hu
Citations: 0
h-index: 0
Wenxuan Xie
Wenxuan Xie
Citations: 56
h-index: 3
Yujia Wang
Yujia Wang
Citations: 0
h-index: 0
Xin Tan
Xin Tan
Citations: 52
h-index: 2
Xuhong Wang
Xuhong Wang
Citations: 3
h-index: 1

대규모 언어 모델(LLM)에 방대한 양의 동적 지식을 통합하는 것은 사실 데이터와 추론 패턴의 내재적인 복잡성으로 인해 여전히 중요한 과제입니다. 기존의 비매개변수 검색 증강 생성(RAG)부터 매개변수 지식 편집에 이르기까지의 솔루션은 종종 유한한 맥락 창, 검색기의 노이즈 또는 재앙적 망각의 위험으로 인해 실질적인 제약을 받습니다. 본 논문에서는 지식 추출과 추론 과정을 명시적으로 분리하도록 설계된 새로운 이중 모델 아키텍처인 DRIFT를 제안합니다. DRIFT는 정적 프롬프트 압축과는 달리, 가벼운 지식 모델을 사용하여 쿼리에 따라 문서 조각을 암묵적 사실 토큰으로 동적으로 압축합니다. 이러한 밀집된 표현은 추론 모델의 임베딩 공간으로 투영되어 원시 텍스트를 대체하면서 추론 정확도를 유지합니다. 광범위한 실험 결과, DRIFT는 장문 맥락 작업에서 성능을 크게 향상시키며, 유사한 크기의 모델 중에서 강력한 기본 모델을 능가하는 것으로 나타났습니다. 우리 접근 방식은 LLM의 효과적인 맥락 창과 추론 능력을 확장하는 확장 가능하고 효율적인 패러다임을 제공합니다. 저희 코드는 https://github.com/Lancelot-Xie/DRIFT 에서 확인할 수 있습니다.

Original Abstract

The integration of extensive, dynamic knowledge into Large Language Models (LLMs) remains a significant challenge due to the inherent entanglement of factual data and reasoning patterns. Existing solutions, ranging from non-parametric Retrieval-Augmented Generation (RAG) to parametric knowledge editing, are often constrained in practice by finite context windows, retriever noise, or the risk of catastrophic forgetting. In this paper, we propose DRIFT, a novel dual-model architecture designed to explicitly decouple knowledge extraction from the reasoning process. Unlike static prompt compression, DRIFT employs a lightweight knowledge model to dynamically compress document chunks into implicit fact tokens conditioned on the query. These dense representations are projected into the reasoning model's embedding space, replacing raw, redundant text while maintaining inference accuracy. Extensive experiments show that DRIFT significantly improves performance on long-context tasks, outperforming strong baselines among comparably sized models. Our approach provides a scalable and efficient paradigm for extending the effective context window and reasoning capabilities of LLMs. Our code is available at https://github.com/Lancelot-Xie/DRIFT.

0 Citations
0 Influential
28.431471805599 Altmetric
142.2 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!