2601.13655v1 Jan 20, 2026 cs.SE

LLM이 계산을 멈추는 이유: 오픈 소스 LLM에서 발생하는 사용자 보고 오류에 대한 실증적 연구

Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs

Zirui Wang
Zirui Wang
Citations: 5,493
h-index: 21
Guangba Yu
Guangba Yu
Citations: 49
h-index: 4
Yujie Huang
Yujie Huang
Citations: 3
h-index: 1
Renyi Zhong
Renyi Zhong
Citations: 130
h-index: 5
Yuedong Zhong
Yuedong Zhong
Citations: 1
h-index: 1
Yilun Wang
Yilun Wang
Citations: 22
h-index: 3
Michael R. Lyu
Michael R. Lyu
Citations: 712
h-index: 16

오픈 소스 대규모 언어 모델(LLM)의 민주화는 사용자가 모델을 로컬 인프라에 미세 조정하고 배포할 수 있도록 하지만, '최초 단계' 배포 환경의 문제를 야기합니다. 블랙박스 API 사용과는 달리, 사용자 관리 오케스트레이션의 신뢰성은 중요한 미해결 과제입니다. 이 문제를 해결하기 위해, 우리는 오픈 소스 DeepSeek, Llama, Qwen 생태계에서 발생한 705건의 실제 오류에 대한 최초의 대규모 실증 연구를 수행했습니다. 저희의 분석 결과는 패러다임 전환을 보여줍니다. '투명한' 오케스트레이션은 신뢰성 병목 지점을 모델 알고리즘 결함에서 배포 스택의 체계적인 취약성으로 이동시킵니다. 우리는 세 가지 주요 현상을 확인했습니다: (1) 진단 불일치: 런타임 오류는 인프라 문제와 명확하게 관련되어 있는 반면, 잘못된 기능은 내부 토크나이저 결함의 특징을 나타냅니다. (2) 체계적 동질성: 근본 원인은 다양한 모델 시리즈에서 수렴하며, 이는 신뢰성 장벽이 특정 아키텍처가 아닌 공유된 생태계 자체에 내재되어 있음을 확인합니다. (3) 라이프사이클 악화: 장벽은 미세 조정 과정에서의 기본적인 설정 문제에서 시작하여 추론 과정에서 복합적인 환경 호환성 문제로 심화됩니다. 공개적으로 제공되는 저희 데이터 세트를 통해 얻은 이러한 통찰력은 LLM 생태계의 신뢰성을 향상시키는 데 필요한 실질적인 지침을 제공합니다.

Original Abstract

The democratization of open-source Large Language Models (LLMs) allows users to fine-tune and deploy models on local infrastructure but exposes them to a First Mile deployment landscape. Unlike black-box API consumption, the reliability of user-managed orchestration remains a critical blind spot. To bridge this gap, we conduct the first large-scale empirical study of 705 real-world failures from the open-source DeepSeek, Llama, and Qwen ecosystems. Our analysis reveals a paradigm shift: white-box orchestration relocates the reliability bottleneck from model algorithmic defects to the systemic fragility of the deployment stack. We identify three key phenomena: (1) Diagnostic Divergence: runtime crashes distinctively signal infrastructure friction, whereas incorrect functionality serves as a signature for internal tokenizer defects. (2) Systemic Homogeneity: Root causes converge across divergent series, confirming reliability barriers are inherent to the shared ecosystem rather than specific architectures. (3) Lifecycle Escalation: Barriers escalate from intrinsic configuration struggles during fine-tuning to compounded environmental incompatibilities during inference. Supported by our publicly available dataset, these insights provide actionable guidance for enhancing the reliability of the LLM landscape.

0 Citations
0 Influential
10.5 Altmetric
52.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!