2601.10132v2 Jan 15, 2026 cs.AI

더 많은 맥락이 항상 더 좋을까? LLM의 시간 간격 예측 능력을 분석 연구

Is More Context Always Better? Examining LLM Reasoning Capability for Time Interval Prediction

Yanan Cao
Yanan Cao
Citations: 2
h-index: 1
Farnaz Fallahi
Farnaz Fallahi
Citations: 47
h-index: 3
Murali Mohana Krishna Dandu
Murali Mohana Krishna Dandu
Citations: 19
h-index: 3
Lalitesh Morishetti
Lalitesh Morishetti
Citations: 40
h-index: 3
Kai Zhao
Kai Zhao
Citations: 77
h-index: 6
Luyi Ma
Luyi Ma
Citations: 124
h-index: 7
Sinduja Subramaniam
Sinduja Subramaniam
Citations: 2
h-index: 1
Jianpeng Xu
Jianpeng Xu
Citations: 301
h-index: 9
Evren Korpeoglu
Evren Korpeoglu
Citations: 182
h-index: 6
Kaushiki Nag
Kaushiki Nag
Citations: 208
h-index: 8
Sushant Kumar
Sushant Kumar
Citations: 248
h-index: 9
Kannan Achan
Kannan Achan
Citations: 346
h-index: 10

대규모 언어 모델(LLM)은 다양한 분야에서 뛰어난 추론 및 예측 능력을 보여주었습니다. 그러나, 구조화된 행동 데이터로부터 시간적 규칙을 추론하는 능력은 아직 충분히 연구되지 않았습니다. 본 연구는 LLM이 반복적인 사용자 행동, 예를 들어 반복적인 구매 사이의 시간 간격을 예측할 수 있는지, 그리고 다양한 수준의 맥락 정보가 LLM의 예측 행동에 어떤 영향을 미치는지에 대한 체계적인 연구를 제시합니다. 간단하지만 대표적인 재구매 시나리오를 사용하여, 최첨단 LLM을 통계 모델 및 머신러닝 모델과 비교하여 제로샷 환경에서의 성능을 평가했습니다. 주요 결과는 두 가지입니다. 첫째, LLM은 간단한 통계 기반 모델보다 우수한 성능을 보이지만, 헌신적인 머신러닝 모델에 비해 일관되게 낮은 성능을 보이며, 이는 LLM이 정량적인 시간적 구조를 포착하는 데 한계가 있음을 보여줍니다. 둘째, 적절한 수준의 맥락 정보는 LLM의 정확도를 향상시킬 수 있지만, 추가적인 사용자 수준의 세부 정보는 오히려 성능을 저하시킵니다. 이러한 결과는 “더 많은 맥락이 더 나은 추론으로 이어진다”는 가정에 도전합니다. 본 연구는 현재 LLM의 구조화된 시간 추론 능력의 근본적인 한계를 강조하며, 통계적 정확성과 언어적 유연성을 통합하는 미래의 맥락 인지 하이브리드 모델 설계에 대한 지침을 제공합니다.

Original Abstract

Large Language Models (LLMs) have demonstrated impressive capabilities in reasoning and prediction across different domains. Yet, their ability to infer temporal regularities from structured behavioral data remains underexplored. This paper presents a systematic study investigating whether LLMs can predict time intervals between recurring user actions, such as repeated purchases, and how different levels of contextual information shape their predictive behavior. Using a simple but representative repurchase scenario, we benchmark state-of-the-art LLMs in zero-shot settings against both statistical and machine-learning models. Two key findings emerge. First, while LLMs surpass lightweight statistical baselines, they consistently underperform dedicated machine-learning models, showing their limited ability to capture quantitative temporal structure. Second, although moderate context can improve LLM accuracy, adding further user-level detail degrades performance. These results challenge the assumption that "more context leads to better reasoning". Our study highlights fundamental limitations of today's LLMs in structured temporal inference and offers guidance for designing future context-aware hybrid models that integrate statistical precision with linguistic flexibility.

1 Citations
0 Influential
5 Altmetric
26.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!