2601.10132v1 Jan 15, 2026 cs.AI

맥락이 많을수록 항상 더 나은가? 시간 간격 예측을 위한 LLM 추론 능력 고찰

Is More Context Always Better? Examining LLM Reasoning Capability for Time Interval Prediction

Yanan Cao
Yanan Cao
Citations: 2
h-index: 1
Farnaz Fallahi
Farnaz Fallahi
Citations: 47
h-index: 3
Murali Mohana Krishna Dandu
Murali Mohana Krishna Dandu
Citations: 19
h-index: 3
Lalitesh Morishetti
Lalitesh Morishetti
Citations: 40
h-index: 3
Kai Zhao
Kai Zhao
Citations: 77
h-index: 6
Luyi Ma
Luyi Ma
Citations: 124
h-index: 7
Sinduja Subramaniam
Sinduja Subramaniam
Citations: 2
h-index: 1
Jianpeng Xu
Jianpeng Xu
Citations: 301
h-index: 9
Evren Korpeoglu
Evren Korpeoglu
Citations: 182
h-index: 6
Kaushiki Nag
Kaushiki Nag
Citations: 208
h-index: 8
Sushant Kumar
Sushant Kumar
Citations: 248
h-index: 9
Kannan Achan
Kannan Achan
Citations: 346
h-index: 10

거대언어모델(LLM)은 다양한 도메인에 걸쳐 추론 및 예측에서 인상적인 능력을 입증해 왔다. 그러나 구조화된 행동 데이터로부터 시간적 규칙성을 추론하는 이들의 능력은 여전히 충분히 탐구되지 않았다. 본 논문은 LLM이 반복 구매와 같은 사용자의 반복적인 행동 사이의 시간 간격을 예측할 수 있는지, 그리고 맥락 정보의 수준 차이가 예측 행동을 어떻게 형성하는지 조사하는 체계적인 연구를 제시한다. 단순하지만 대표적인 재구매 시나리오를 사용하여, 우리는 제로샷(zero-shot) 설정에서 최신 LLM들을 통계적 모델 및 머신러닝 모델과 비교 벤치마킹하였다. 연구 결과 두 가지 핵심적인 사실이 도출되었다. 첫째, LLM은 가벼운 통계적 기준선(baseline)은 능가하지만 전용 머신러닝 모델보다는 일관되게 낮은 성능을 보였으며, 이는 정량적인 시간 구조를 포착하는 데 한계가 있음을 보여준다. 둘째, 적당한 수준의 맥락은 LLM의 정확도를 향상시킬 수 있지만, 사용자 수준의 세부 정보를 더 추가하면 오히려 성능이 저하되는 것으로 나타났다. 이러한 결과는 "맥락이 많을수록 더 나은 추론으로 이어진다"는 가정에 의문을 제기한다. 본 연구는 구조화된 시간적 추론에 있어 현재 LLM의 근본적인 한계를 강조하며, 통계적 정밀함과 언어적 유연성을 통합하는 미래의 맥락 인식 하이브리드 모델 설계를 위한 지침을 제공한다.

Original Abstract

Large Language Models (LLMs) have demonstrated impressive capabilities in reasoning and prediction across different domains. Yet, their ability to infer temporal regularities from structured behavioral data remains underexplored. This paper presents a systematic study investigating whether LLMs can predict time intervals between recurring user actions, such as repeated purchases, and how different levels of contextual information shape their predictive behavior. Using a simple but representative repurchase scenario, we benchmark state-of-the-art LLMs in zero-shot settings against both statistical and machine-learning models. Two key findings emerge. First, while LLMs surpass lightweight statistical baselines, they consistently underperform dedicated machine-learning models, showing their limited ability to capture quantitative temporal structure. Second, although moderate context can improve LLM accuracy, adding further user-level detail degrades performance. These results challenge the assumption that "more context leads to better reasoning". Our study highlights fundamental limitations of today's LLMs in structured temporal inference and offers guidance for designing future context-aware hybrid models that integrate statistical precision with linguistic flexibility.

1 Citations
0 Influential
5 Altmetric
26.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!