스칼라 값을 넘어: 기하학적 진행과 안정성을 활용한 LLM 추론 평가 및 이해
Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability
LLM의 신뢰성을 스칼라 확률 값만으로 평가하는 것은 종종 추론의 구조적 역학을 제대로 반영하지 못합니다. 본 연구에서는 TRACED라는 프레임워크를 소개하며, 이는 이론적으로 정립된 기하학적 운동학을 통해 추론의 품질을 평가합니다. 추론 과정을 진행(변위)과 안정성(곡률)으로 분해함으로써, 명확한 위상적 차이를 드러냅니다. 정확한 추론은 높은 진행성과 안정적인 궤적을 보이는 반면, 환각은 낮은 진행성과 불안정한 패턴(높은 곡률 변동을 동반한 정체된 변위)으로 특징지어집니다. 이러한 특징을 활용하여, 저희의 확률 기반 프레임워크는 다양한 벤치마크에서 경쟁력 있는 성능과 뛰어난 견고성을 달성합니다. 더욱 중요한 점은, TRACED가 기하학과 인지 사이의 간극을 좁히며, 높은 곡률을 '망설임 루프'로, 변위를 '확신 축적'으로 연결하여, 기계적 사고의 내부 역학을 이해할 수 있는 물리적 관점을 제공합니다.
Evaluating LLM reliability via scalar probabilities often fails to capture the structural dynamics of reasoning. We introduce TRACED, a framework that assesses reasoning quality through theoretically grounded geometric kinematics. By decomposing reasoning traces into Progress (displacement) and Stability (curvature), we reveal a distinct topological divergence: correct reasoning manifests as high-progress, stable trajectories, whereas hallucinations are characterized by low-progress, unstable patterns (stalled displacement with high curvature fluctuations). Leveraging these signatures, our probabilistic framework achieves competitive performance and superior robustness across diverse benchmarks. Crucially, TRACED bridges geometry and cognition by mapping high curvature to ''Hesitation Loops'' and displacement to ''Certainty Accumulation'', offering a physical lens to decode the internal dynamics of machine thought.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.