펜시브(Pensieve) 패러다임: 스스로 문맥을 제어하는 상태 유지형 언어 모델
The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context
해리 포터의 세계관에서 덤블도어는 머릿속이 과부하가 걸리면 기억을 추출하여 나중에 다시 열람할 수 있도록 펜시브(Pensieve)에 보관합니다. AI의 세계에서 우리는 성숙한 데이터베이스와 검색 시스템이라는 펜시브를 보유하고 있지만, 불가해하게도 우리 모델들에게는 이를 조작할 '지팡이'가 없습니다. 모델들은 주체성(agency) 없는 덤블도어처럼 수동적으로 설계된 문맥만을 자신의 전체 기억으로 받아들입니다. 본 연구는 마침내 모델의 손에 지팡이를 쥐여줍니다. 우리는 자신의 상태를 관리하기 위한 내부 추론 루프를 갖춘 새로운 종류의 파운데이션 모델인 StateLM을 소개합니다. 우리는 모델에 문맥 가지치기(context pruning), 문서 인덱싱, 노트 필기와 같은 메모리 도구 모음을 장착하고, 이를 능동적으로 관리하도록 훈련시킵니다. 스스로 문맥을 동적으로 엔지니어링하는 법을 학습함으로써, 우리 모델은 고정된 컨텍스트 윈도우라는 아키텍처의 한계에서 벗어납니다. 다양한 모델 크기에 걸친 실험을 통해 여러 시나리오에서 StateLM의 효과를 입증했습니다. 장문 문서 QA 작업에서 StateLM은 모든 모델 규모에서 표준 LLM보다 일관되게 뛰어난 성능을 보였으며, 채팅 메모리 작업에서는 표준 LLM 대비 10%에서 20%의 절대적인 정확도 향상을 달성했습니다. 심층 연구 작업인 BrowseComp-Plus에서는 성능 격차가 더욱 두드러져, 표준 LLM이 약 5% 수준에서 고전하는 반면 StateLM은 최대 52%의 정확도를 달성했습니다. 궁극적으로 우리의 접근 방식은 LLM을 수동적인 예측기에서, 추론이 상태를 유지하며 관리 가능한 프로세스가 되는 '상태 인식 에이전트'로 전환시킵니다.
In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.