2602.04288v1 Feb 04, 2026 cs.CL

맥락적 영향: 맥락 내 오류가 LLM 추론에 미치는 영향

Contextual Drag: How Errors in the Context Affect LLM Reasoning

Haoyu Zhao
Haoyu Zhao
Citations: 214
h-index: 5
Yun Cheng
Yun Cheng
Princeton University
Citations: 413
h-index: 7
Sanjeev Arora
Sanjeev Arora
Citations: 386
h-index: 10
Xingyu Zhu
Xingyu Zhu
Princeton University
Citations: 127
h-index: 4

대규모 언어 모델(LLM)의 자기 개선 과정에서 모델이 과거의 실수를 되돌아보며 개선될 수 있다는 전제가 중요합니다. 본 연구에서는 '맥락적 영향(contextual drag)'이라는 현상을 조사합니다. 이는 과거의 실패 사례가 맥락에 포함될 경우, 후속 생성 과정에서 구조적으로 유사한 오류를 유발하는 현상입니다. 11개의 독점 및 오픈 소스 모델을 대상으로 8가지 추론 과제를 평가한 결과, 맥락적 영향은 성능을 10~20% 감소시켰으며, 맥락적 영향이 심각한 모델에서는 반복적인 자기 개선 과정이 오히려 모델의 성능 저하를 초래할 수 있음을 확인했습니다. 트리 편집 거리를 이용한 구조 분석 결과, 후속 추론 과정은 맥락에서 비롯된 구조적으로 유사한 오류 패턴을 그대로 이어받는 것을 알 수 있었습니다. 외부 피드백이나 성공적인 자기 검증만으로는 이러한 현상을 완벽하게 제거할 수 없음을 보여줍니다. 맥락적 영향을 완화하기 위한 방법으로, 대체 행동 미세 조정 및 맥락 노이즈 제거 기법을 적용하여 부분적인 개선을 얻을 수 있었지만, 이러한 방법은 기존 성능 수준을 완전히 회복하지 못했습니다. 따라서 맥락적 영향은 현재 추론 아키텍처에서 지속적으로 발생하는 주요 문제점으로 판단됩니다.

Original Abstract

Central to many self-improvement pipelines for large language models (LLMs) is the assumption that models can improve by reflecting on past mistakes. We study a phenomenon termed contextual drag: the presence of failed attempts in the context biases subsequent generations toward structurally similar errors. Across evaluations of 11 proprietary and open-weight models on 8 reasoning tasks, contextual drag induces 10-20% performance drops, and iterative self-refinement in models with severe contextual drag can collapse into self-deterioration. Structural analysis using tree edit distance reveals that subsequent reasoning trajectories inherit structurally similar error patterns from the context. We demonstrate that neither external feedback nor successful self-verification suffices to eliminate this effect. While mitigation strategies such as fallback-behavior fine-tuning and context denoising yield partial improvements, they fail to fully restore baseline performance, positioning contextual drag as a persistent failure mode in current reasoning architectures.

1 Citations
0 Influential
5 Altmetric
26.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!