TopBench: 표 기반 질의 응답 시스템의 암묵적 예측 및 추론을 위한 벤치마크
TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering
대규모 언어 모델(LLM)은 표 기반 질의 응답 분야에서 상당한 발전을 이루었으며, 대부분의 질문은 정보 추출 또는 간단한 집계를 통해 답변될 수 있습니다. 그러나 실제 환경에서 자주 발생하는 질문들은 암묵적으로 예측을 요구하며, 단순히 정보를 검색하는 것 이상으로 과거 패턴을 기반으로 관찰되지 않은 답변을 추론해야 합니다. 이러한 질문들은 잠재적 의도 파악과 대규모 표에 대한 신뢰성 있는 예측 추론이라는 두 가지 과제를 야기합니다. 이러한 암묵적 예측 기능을 갖춘 표 기반 질의 응답 시스템을 평가하기 위해, 우리는 779개의 샘플로 구성된 벤치마크인 TopBench를 소개합니다. TopBench는 단일 지점 예측부터 의사 결정, 치료 효과 분석, 복잡한 필터링에 이르기까지 다양한 하위 작업으로 구성되어 있으며, 모델이 추론 텍스트와 구조화된 표를 모두 생성해야 합니다. 우리는 다양한 모델을 텍스트 기반 워크플로우와 에이전트 기반 워크플로우 모두에서 평가했습니다. 실험 결과, 현재 모델은 종종 의도 인식에 어려움을 겪으며, 단순히 정보를 조회하는 데 그치는 경향이 있습니다. 더 자세한 분석 결과, 정확한 의도 구분이 이러한 예측적 행동을 이끌어내는 데 필수적인 요소임을 알 수 있습니다. 또한, 예측 정확도를 높이기 위해서는 더욱 정교한 모델링 또는 추론 능력이 필요합니다.
Large Language Models (LLMs) have advanced Table Question Answering, where most queries can be answered by extracting information or simple aggregation. However, a common class of real-world queries is implicitly predictive, requiring the inference of unobserved answers from historical patterns rather than mere retrieval. These queries introduce two challenges: recognizing latent intent and reliable predictive reasoning over massive tables. To assess LLMs in such Tabular questiOn answering with implicit Prediction tasks, we introduce TopBench, a benchmark consisting of 779 samples across four sub-tasks, ranging from single-point prediction to decision making, treatment effect analysis, and complex filtering, requiring models to generate outputs spanning reasoning text and structured tables. We evaluate diverse models under both text-based and agentic workflows. Experiments reveal that current models often struggle with intent recognition, defaulting to just lookups. Deeper analysis identifies that accurate intent disambiguation serves as the prerequisite for leading these predictive behaviors. Furthermore, elevating the upper bound of prediction precision requires the integration of more sophisticated modeling or reasoning capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.