2603.05290v1 Mar 05, 2026 cs.AI

X-RAY: 형식화되고 교정된 탐침을 활용하여 LLM의 추론 능력을 분석하는 방법

X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

Jin Song Dong
Jin Song Dong
Citations: 32
h-index: 3
Tian Gao
Tian Gao
Citations: 3
h-index: 1
Yufan Cai
Yufan Cai
Citations: 90
h-index: 5
Yusi Yuan
Yusi Yuan
Citations: 0
h-index: 0

대규모 언어 모델(LLM)은 뛰어난 성능을 보이지만, 그 추론 능력은 아직 제대로 이해되지 못하고 있습니다. 기존의 평가는 주로 작업 수준의 정확도를 강조하며, 종종 패턴 매칭을 추론 능력과 혼동하는 경향이 있습니다. 본 논문에서는 X-RAY라는 설명 가능한 추론 분석 시스템을 제시합니다. X-RAY는 교정되고 형식적으로 검증된 탐침을 사용하여 LLM의 추론 능력을 분석합니다. 우리는 추론 능력을 추출 가능한 extit{구조}의 함수로 모델링하며, 이 구조는 제약 조건 상호 작용, 추론 깊이, 해 공간 기하학과 같은 형식적인 속성을 통해 구현됩니다. X-RAY는 형식적인 도구를 사용하여 제어된 구조적 변형을 가진 탐침을 생성하며, 이를 통해 형식적인 교정 및 검증을 통해 점진적인 구조 정보의 정밀한 분리를 가능하게 합니다. 우리는 최첨단 LLM을 수학, 물리학, 화학 분야의 초급에서 고급 문제에 대해 평가했습니다. 우리의 분석 결과, LLM 추론에는 체계적인 비대칭성이 존재합니다. 즉, 모델은 기존 해 공간을 축소시키는 추가 조건(제약 조건 세분화)에는 비교적 강건하지만, 해 공간의 근본적인 구조적 형태를 변경하는 수정(해 공간 재구성)에 대해서는 성능이 급격히 저하됩니다. 또한, 교정된 형식적인 탐침은 표준 벤치마크에서 구별하기 어려운 모델을 구분하고, 구조적으로 해석 가능한 실패 모드를 드러냅니다. 평가 외에도, 우리의 프레임워크는 오염 가능성이 없고, 추론 모델의 훈련 및 테스트를 지원합니다.

Original Abstract

Large language models (LLMs) achieve promising performance, yet their ability to reason remains poorly understood. Existing evaluations largely emphasize task-level accuracy, often conflating pattern matching with reasoning capability. We present X-RAY, an explainable reasoning analysis system that maps the LLM reasoning capability using calibrated, formally verified probes. We model reasoning capability as a function of extractable \textit{structure}, operationalized through formal properties such as constraint interaction, reasoning depth, and solution-space geometry. X-Ray generates probes via formal tools with controlled structural variations, enabling precise isolation of incremental structural information through formal calibration and verification. We evaluate state-of-the-art LLMs on problems ranging from junior-level to advanced in mathematics, physics, and chemistry. Our analysis reveals a systematic asymmetry in LLM reasoning: models are relatively robust to constraint refinement, where additional conditions shrink an existing solution space, but degrade sharply under solution-space restructuring, where modifications alter the underlying structural form of the solution manifold. Moreover, calibrated formal probes differentiate models that appear indistinguishable on standard benchmarks and reveal failure modes that are structurally interpretable rather than opaque. Beyond evaluation, our framework is contamination-free and supports the training and testing of reasoning models.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!