텍스트 불안함의 골짜기: LLM 정보 검색에서의 비선형 성능 저하
The Text Uncanny Valley: Non-Monotonic Performance Degradation in LLM Information Retrieval
기존의 대규모 언어 모델(LLM) 벤치마크는 주로 문법적으로 정확한 입력에 초점을 맞추고 있어, 불완전한 텍스트에 대한 평가에서 중요한 격차가 존재합니다. 본 연구에서는 단어 경계 손상이 LLM이 목표 정보를 얼마나 정확하게 감지하는지에 미치는 영향을 조사합니다. 단어 내에 공백 문자를 삽입하여 단어를 조각으로 나누면, LLM의 감지 정확도는 삽입률 증가에 따라 U자형 곡선을 따릅니다. 우리는 이 곡선을 '텍스트 불안함의 골짜기'라고 명명합니다. 이러한 현상을 설명하기 위해, 우리는 모드 전환 가설을 제안합니다. LLM은 정상 텍스트에 가까운 경우 단어 수준 모드로 작동하고, 심하게 조각난 텍스트의 경우 문자 수준 모드로 작동하며, 골짜기는 두 모드 모두 효과적이지 않은 혼란스러운 전환 지점을 나타냅니다. 네 가지 실험과 하나의 분석은 이러한 설명을 뒷받침합니다. 문맥 학습은 골짜기 최저점의 성능을 개선하지 못하며, 노이즈를 규제하면 U자형이 크게 감소합니다. 수학 추론 작업에서 Gemini 3.0 Flash 모델은 U자형을 보이지만, 더 강력한 모델에서는 나타나지 않는데, 이는 작업이 정확한 어휘 정렬에 덜 의존할수록 이러한 효과가 약화됨을 시사합니다. 또한 토큰화 엔트로피는 F1 최소값 전에 최고조에 달하며, 이는 체제 충돌 해석과 일치합니다. 이러한 결과는 깨끗한 텍스트 벤치마크로는 드러나지 않지만, 노이즈가 있거나 검증되지 않은 텍스트 입력을 사용하는 모든 배포 시나리오와 직접적으로 관련된 LLM의 실패 모드를 보여줍니다.
Existing Large Language Model (LLM) benchmarks primarily focus on syntactically correct inputs, leaving a significant gap in evaluation on imperfect text. In this work, we study how word-boundary corruption affects how LLMs detect targeted information. By inserting whitespace characters within words to break them into fragments, LLMs' detection accuracy follows a U-shaped curve with the increase in insertion rate. We refer to this curve as the Text Uncanny Valley. To explain such observation, we propose a mode transition hypothesis: LLMs operate in a word-level mode for near-normal text and a character-level mode for heavily fragmented text, with the valley marking the disordered transition where neither mode is effective. Four experiments and one analysis are consistent with this account: in-context learning fails to rescue valley-bottom performance; regularizing the perturbation substantially reduces the U-shape; a math reasoning task replicates the U-shape for Gemini 3.0 Flash but not for stronger models, suggesting the effect is attenuated when tasks rely less on exact lexical alignment; and tokenization entropy peaks before the F1 minimum, consistent with a regime-conflict interpretation. These findings reveal a failure mode invisible to clean-text benchmarks yet directly relevant to any deployment scenario involving noisy or uncurated text inputs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.