바늘의 환상 너머: 3억 2천 6백만 토큰 규모의 의미적 간섭 환경에서 증거 접근 및 활용의 분리 평가
Beyond the Needle's Illusion: Decoupled Evaluation of Evidence Access and Use under Semantic Interference at 326M-Token Scale
장문 맥락을 처리하는 LLM 에이전트는 방대한 환경에서 올바른 증거를 찾아내고 이를 정확하게 활용해야 합니다. 그러나, 널리 사용되는 Needle-in-a-Haystack (NIAH) 평가는 대부분 단순한 구간(span) 위치 찾기를 측정합니다. 이 때, 찾고자 하는 정보(바늘)는 매우 독특하며, 주변 정보(건초)는 대부분 관련이 없습니다. 본 연구에서는 3억 2천 6백만 토큰 규모의 MemoryBank를 기반으로 구축된 적대적인 NIAH 스타일 벤치마크인 EverMemBench-S (EMB-S)를 소개합니다. 전체 MemoryBank는 검색 기반(RAG) 평가를 위해 3억 2천 6백만 토큰으로 구성되지만, 공정한 비교를 위해 각 모델의 맥락 창(context window) 내에 포함될 수 있는 규모(본 연구에서는 최대 100만 토큰)로만 장문 맥락 모델을 평가합니다. EMB-S는 사람이 검토하고 LLM으로 검증된, 하나 이상의 문서에 걸쳐 있는 관련 증거 세트와 함께, 충돌 가능성을 검증한 유사하지만 부정확한 답변(hard negatives)을 결합하여 구성됩니다. 또한, 본 연구에서는 전체 맥락 프롬프팅 하에서 엔드-투-엔드 질문-응답 품질과 별도로 증거 접근 (문서 ID 위치 찾기)을 보고하는 분리 진단 프로토콜을 제안합니다. 이를 통해 장문 맥락 프롬프팅과 검색 파이프라인 모두에 대해 일관된 진단이 가능합니다. 도메인 제한적인 64K 맥락부터 전역적으로 공유되는 3억 2천 6백만 토큰 환경까지, 다양한 규모의 참조 코퍼스를 사용하여 분석한 결과, 명백한 현실 간극이 존재합니다. 단순한 NIAH 평가에서 높은 성능을 보이는 시스템이라도, 의미적 간섭 환경에서는 증거 접근 능력에서 급격한 성능 저하를 보입니다. 이러한 결과는 장문 맥락 메모리의 규모에서 중요한 제약 요인이 맥락 길이 자체가 아니라 의미론적 구별 능력이라는 것을 시사합니다.
Long-context LLM agents must access the right evidence from large environments and use it faithfully. However, the popular Needle-in-a-Haystack (NIAH) evaluation mostly measures benign span localization. The needle is near-unique, and the haystack is largely irrelevant. We introduce EverMemBench-S (EMB-S), an adversarial NIAH-style benchmark built on a 326M-token MemoryBank. While the full MemoryBank spans 326M tokens for retrieval-based (RAG) evaluation, we evaluate native long-context models only at scales that fit within each model's context window (up to 1M tokens in this work) to ensure a fair comparison. EMB-S pairs queries with collision-tested near-miss hard negatives and gold evidence sets spanning one or more documents, validated via human screening and LLM verification. We also propose a decoupled diagnostic protocol that reports evidence access (document-ID localization) separately from end-to-end QA quality under full-context prompting. This enables consistent diagnosis for both native long-context prompting and retrieval pipelines. Across a reference-corpus ladder from domain-isolated 64K contexts to a globally shared 326M-token environment, we observe a clear reality gap. Systems that saturate benign NIAH degrade sharply in evidence access under semantic interference. These results indicate that semantic discrimination, not context length alone, is the dominant bottleneck for long-context memory at scale.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.