검증 가능한 추론 추적 보상을 통한 TableQA 성능 향상
Enhancing TableQA through Verifiable Reasoning Trace Reward
텍스트나 이미지 기반의 일반적인 에이전트와 비교하여 TableQA 에이전트를 훈련하는 데 있어 주된 과제는, 정적인 입력만으로는 정답을 도출할 수 없고 표 상태의 단계별 변환을 통해 추론해야 한다는 점이며, 이는 다단계 추론의 복잡성과 환경적 상호작용을 야기합니다. 이는 '표 변환 행동에 대한 명시적인 피드백이 모델의 추론 능력을 향상시킬 수 있는가?'라는 연구 질문으로 이어집니다. 본 연구에서는 문제를 부분 관측 마르코프 의사결정 과정(POMDP)으로 정식화하여, 경량화된 비학습형(training-free) 보상 모델링을 통해 궤적 탐색을 구조적으로 강화하는 플러그 앤 플레이 프레임워크인 RE-Tab을 소개합니다. 우리는 상태 전이('무엇이 최적의 행동인가?')와 모의 추론('출력을 확신하는가?') 과정에서 명시적이고 검증 가능한 보상을 제공하는 것이 표 상태 내에서 에이전트의 탐색을 유도하는 데 결정적임을 입증합니다. 표 변환 과정에서 보상 피드백을 통해 단계별 추론을 강제함으로써, RE-Tab은 추론 비용을 거의 25% 절감하면서도 TableQA에서 최고 수준(SOTA)의 성능을 달성했습니다. 또한, RE-Tab을 직접적인 플러그 앤 플레이 방식으로 적용했을 때 QA 정확도가 최대 41.77% 향상되었으며, 일관된 답변을 도출하기 위한 테스트 단계의 추론 샘플 수는 33.33% 감소했습니다. 다양한 LLM과 최신 벤치마크 전반에 걸쳐 나타난 일관된 성능 향상은 RE-Tab의 범용성을 확인해 줍니다. 관련 저장소는 https://github.com/ThomasK1018/RE_Tab 에서 이용할 수 있습니다.
A major challenge in training TableQA agents, compared to standard text- and image-based agents, is that answers cannot be inferred from a static input but must be reasoned through stepwise transformations of the table state, introducing multi-step reasoning complexity and environmental interaction. This leads to a research question: Can explicit feedback on table transformation action improve model reasoning capability? In this work, we introduce RE-Tab, a plug-and-play framework that architecturally enhances trajectory search via lightweight, training-free reward modeling by formulating the problem as a Partially Observable Markov Decision Process. We demonstrate that providing explicit verifiable rewards during State Transition (``What is the best action?'') and Simulative Reasoning (``Am I sure about the output?'') is crucial to steer the agent's navigation in table states. By enforcing stepwise reasoning with reward feedback in table transformations, RE-Tab achieves state-of-the-art performance in TableQA with almost 25\% drop in inference cost. Furthermore, a direct plug-and-play implementation of RE-Tab brings up to 41.77% improvement in QA accuracy and 33.33% drop in test-time inference samples for consistent answer. Consistent improvement pattern across various LLMs and state-of-the-art benchmarks further confirms RE-Tab's generalisability. The repository is available at https://github.com/ThomasK1018/RE_Tab .
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.