2601.09089v1 Jan 14, 2026 cs.CL

SubTokenTest: 실제 세계의 서브 토큰 이해를 위한 실용적인 벤치마크

SubTokenTest: A Practical Benchmark for Real-World Sub-token Understanding

Shuyang Hou
Shuyang Hou
Citations: 189
h-index: 9
Yi Hu
Yi Hu
Citations: 225
h-index: 6
Muhan Zhang
Muhan Zhang
Citations: 70
h-index: 4

최근 거대 언어 모델(LLM)의 발전은 추론 능력 향상에 크게 기여했습니다. 그러나 LLM은 여전히 단어 내 문자 개수 세기와 같은 기본적인 문자 수준 작업에서 어려움을 겪으며, 이는 토큰화 과정에 기인합니다. 기존 벤치마크는 기본적인 문자 연산을 통해 이러한 약점을 지적했지만, 이러한 실패는 실제적인 관련성이 부족하다는 이유로 종종 간과됩니다. 그러나 텍스트 기반 지도 탐색이나 구조화된 테이블 해석과 같은 많은 실제 응용 프로그램은 정확한 서브 토큰 이해에 크게 의존합니다. 이에 따라, 우리는 실용적이고 유틸리티 중심의 작업들을 통해 서브 토큰 이해를 평가하는 포괄적인 벤치마크인 SubTokenTest를 소개합니다. 당사의 벤치마크는 네 가지 영역에 걸쳐 열 가지 작업을 포함하며, 복잡한 추론과는 독립적으로 토큰화 관련 실패를 분리하여 성능을 평가합니다. 우리는 아홉 개의 최첨단 LLM에 대한 종합적인 평가를 제공합니다. 또한, 테스트 시간 스케일링이 서브 토큰 추론에 미치는 영향과, 문자 수준 정보가 숨겨진 상태 내에 어떻게 인코딩되는지 조사합니다.

Original Abstract

Recent advancements in large language models (LLMs) have significantly enhanced their reasoning capabilities. However, they continue to struggle with basic character-level tasks, such as counting letters in words, a problem rooted in their tokenization process. While existing benchmarks have highlighted this weakness through basic character operations, such failures are often dismissed due to lacking practical relevance. Yet, many real-world applications, such as navigating text-based maps or interpreting structured tables, rely heavily on precise sub-token understanding. In this regard, we introduce SubTokenTest, a comprehensive benchmark that assesses sub-token understanding through practical, utility-driven tasks. Our benchmark includes ten tasks across four domains and isolates tokenization-related failures by decoupling performance from complex reasoning. We provide a comprehensive evaluation of nine advanced LLMs. Additionally, we investigate the impact of test-time scaling on sub-token reasoning and explore how character-level information is encoded within the hidden states.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!