재귀 언어 모델과 불확실성: 긴 문맥 처리를 위한 자기 성찰적 프로그램 탐색의 놀라운 효과
Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
긴 문맥 처리는 언어 모델의 핵심적인 과제 중 하나입니다. 확장된 문맥 창을 사용하더라도, 모델은 종종 긴 문맥에서 정보를 안정적으로 추출하고, 추론하며, 활용하는 데 어려움을 겪습니다. 최근의 Recursive Language Models (RLM)와 같은 연구는 에이전트 기반 방식으로, 프로그램 상호작용을 통해 긴 문맥을 재귀적인 하위 호출로 분해하여 이 문제를 해결하고자 했습니다. 그러나 RLM의 성공은 문맥 상호작용 프로그램이 어떻게 선택되는지에 크게 의존하며, 이는 아직 충분히 연구되지 않았습니다. 본 논문에서는 이 문제를 연구하고, 불확실성을 고려한 자기 성찰(Self-Reflection)을 통해 프로그램 기반 문맥 상호작용을 강화하는 SRLM 프레임워크를 소개합니다. SRLM은 자기 일관성, 추론 길이, 명시적인 신뢰도 등 세 가지 내재적 신호를 활용합니다. 이러한 신호는 모델의 내부적 불확실성을 나타내는 보완적인 지표 역할을 하며, 모델은 이를 사용하여 후보 문맥 상호작용 프로그램을 평가하고 비교합니다. 다양한 벤치마크 데이터 세트, 문맥 길이 및 기본 모델을 사용한 광범위한 실험 결과, SRLM은 일관되게 최첨단 모델보다 우수한 성능을 보였으며, 동일한 시간 제약 조건 하에서 RLM보다 최대 22%의 성능 향상을 달성했습니다. 우리의 연구 결과는 재귀 자체가 RLM의 성능을 결정하는 주요 요인이 아니며, 간단한 자기 성찰적 프로그램 탐색만으로도 명시적인 재귀 메커니즘 없이 RLM의 성능을 능가할 수 있다는 것을 보여줍니다. 또한, 모델의 문맥 창 내의 문맥 길이에 대해, 재귀를 사용하는 RLM은 종종 기본 모델보다 성능이 저하되는 반면, SRLM은 짧은 문맥과 긴 문맥 모두에서 일관된 성능 향상을 제공합니다. 또한, RLM은 휴리스틱 기반 프로그램 탐색으로는 충분하지 않고 더 넓은 문맥 이해가 필요한 의미적으로 복잡한 작업에서 효과가 떨어지는 반면, SRLM의 자기 성찰은 이러한 시나리오에서 추론을 더 잘 안내하는 의미적 신호를 제공합니다.
Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.