2602.02523v1 Jan 25, 2026 cs.LG

TabularMath: 프로그램 검증 기반 합성법을 통한 표 형식 학습에서의 계산적 외삽 평가

TabularMath: Evaluating Computational Extrapolation in Tabular Learning via Program-Verified Synthesis

Jiashuo Liu
Jiashuo Liu
Citations: 41
h-index: 3
Wenhao Huang
Wenhao Huang
Citations: 53
h-index: 2
Zerui Cheng
Zerui Cheng
Citations: 371
h-index: 4
Jianzhu Yao
Jianzhu Yao
Citations: 48
h-index: 3
P. Viswanath
P. Viswanath
Citations: 27,911
h-index: 55
Ge Zhang
Ge Zhang
Citations: 10
h-index: 1

기존의 표 형식 벤치마크는 주로 모델이 데이터 공간 내에서 값을 보간하는 능력을 평가하는 데 초점을 맞추며, 로컬 통계적 평활화에 능한 모델에게 높은 점수를 부여합니다. 그러나 금융 모델링 및 물리 시뮬레이션과 같이 매우 가치 있는 표 형식 데이터의 상당수는 확률적이고 노이즈가 많은 관계가 아닌, 결정론적인 계산 과정을 통해 생성됩니다. 따라서 본 연구에서는 표 형식 모델이 통계적 보간을 넘어 계산적 외삽을 수행할 수 있는지 조사합니다. 저희는 GSM8K 및 AIME를 기반으로 검증된 프로그램에서 생성된 114개의 결정론적 문제(233,472행)로 구성된 진단 벤치마크인 TabularMath를 제안합니다. 9개의 표 형식 아키텍처와 GPT-OSS-120B를 사용한 인컨텍스트 학습(ICL)을 평가했습니다. 표준 회귀 지표에서 TabPFN v2.5는 뛰어난 성능을 보이며, 동일 분포에서 R^2=0.998을 달성하고, 분포 변화가 발생하더라도 긍정적인 R^2 값을 유지하여, 테스트한 표 형식 모델 중 유일한 결과를 보였습니다. 반면, 반올림 오차를 고려한 정확성(정수 일치)을 측정했을 때, 다른 결과가 나타났습니다. TabPFN v2.5는 외부 분포 데이터에서 10% 미만의 정확도를 보인 반면, ICL은 약 40%의 정확도를 유지했습니다. R^2 값과 정확성 간의 이러한 차이는 표 형식 모델이 부드러운 함수 근사를 학습하지만, 외삽 과정에서 정확한 계산 결과를 복원하는 데 어려움을 겪는다는 것을 시사합니다. 두 가지 방법은 상호 보완적인 관계를 갖는 것으로 보입니다. TabPFN은 데이터 양에 따라 효율적으로 확장되는 반면, ICL은 적은 수의 예시로부터 정확한 계산을 수행할 수 있습니다. 본 연구에서 사용한 모든 코드와 데이터를 공개하여 추가 연구를 지원합니다.

Original Abstract

Standard tabular benchmarks mainly focus on the evaluation of a model's capability to interpolate values inside a data manifold, where models good at performing local statistical smoothing are rewarded. However, there exists a very large category of high-value tabular data, including financial modeling and physical simulations, which are generated based upon deterministic computational processes, as opposed to stochastic and noisy relationships. Therefore, we investigate if tabular models can provide an extension from statistical interpolation to computational extrapolation. We propose TabularMath, a diagnostic benchmark of 114 deterministic problems (233,472 rows) generated from verified programs based on GSM8K and AIME. We evaluate 9 tabular architectures and in-context learning (ICL) with GPT-OSS-120B. On standard regression metrics, TabPFN v2.5 performs remarkably well, achieving R^2=0.998 in-distribution and maintaining positive R^2 even under distribution shift, which is unique among the tabular models we tested. When we measure rounded consistency (exact integer match), a different picture emerges: TabPFN v2.5 drops below 10% on out-of-distribution data, while ICL maintains around 40%. This gap between R^2 and exact-match accuracy suggests that tabular models learn smooth function approximations but struggle to recover precise computational outputs under extrapolation. The two paradigms appear complementary: TabPFN scales efficiently with data; ICL achieves exact computation from few examples. We release all code and data to support further investigation.

0 Citations
0 Influential
27.5 Altmetric
137.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!