SubTokenTest: 실제 세계의 서브 토큰 이해를 위한 실용적인 벤치마크
SubTokenTest: A Practical Benchmark for Real-World Sub-token Understanding
최근 거대 언어 모델(LLM)의 발전은 추론 능력 향상에 크게 기여했습니다. 그러나 LLM은 여전히 단어 내 문자 개수 세기와 같은 기본적인 문자 수준 작업에서 어려움을 겪으며, 이는 토큰화 과정에 기인합니다. 기존 벤치마크는 기본적인 문자 연산을 통해 이러한 약점을 지적했지만, 이러한 실패는 실제적인 관련성이 부족하다는 이유로 종종 간과됩니다. 그러나 텍스트 기반 지도 탐색이나 구조화된 테이블 해석과 같은 많은 실제 응용 프로그램은 정확한 서브 토큰 이해에 크게 의존합니다. 이에 따라, 우리는 실용적이고 유틸리티 중심의 작업들을 통해 서브 토큰 이해를 평가하는 포괄적인 벤치마크인 SubTokenTest를 소개합니다. 당사의 벤치마크는 네 가지 영역에 걸쳐 열 가지 작업을 포함하며, 복잡한 추론과는 독립적으로 토큰화 관련 실패를 분리하여 성능을 평가합니다. 우리는 아홉 개의 최첨단 LLM에 대한 종합적인 평가를 제공합니다. 또한, 테스트 시간 스케일링이 서브 토큰 추론에 미치는 영향과, 문자 수준 정보가 숨겨진 상태 내에 어떻게 인코딩되는지 조사합니다.
Recent advancements in large language models (LLMs) have significantly enhanced their reasoning capabilities. However, they continue to struggle with basic character-level tasks, such as counting letters in words, a problem rooted in their tokenization process. While existing benchmarks have highlighted this weakness through basic character operations, such failures are often dismissed due to lacking practical relevance. Yet, many real-world applications, such as navigating text-based maps or interpreting structured tables, rely heavily on precise sub-token understanding. In this regard, we introduce SubTokenTest, a comprehensive benchmark that assesses sub-token understanding through practical, utility-driven tasks. Our benchmark includes ten tasks across four domains and isolates tokenization-related failures by decoupling performance from complex reasoning. We provide a comprehensive evaluation of nine advanced LLMs. Additionally, we investigate the impact of test-time scaling on sub-token reasoning and explore how character-level information is encoded within the hidden states.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.