테이블에서 셀로: TABALIGN을 사용한 더 나은 추론을 위한 어텐션
From Table to Cell: Attention for Better Reasoning with TABALIGN
구조화된 테이블에 대한 다단계 LLM 추론은 계획 및 실행 단계가 명시적인 셀 기반 연결을 공유하지 않기 때문에 실패합니다. 기존 방법은 계획 단계를 왼쪽에서 오른쪽으로 순차적으로 처리하도록 제한하여 테이블의 순서 변환 불변성을 위반하며, 생성된 내용만으로 중간 상태를 평가하여 셀 기반 연결을 간과합니다. 파일럿 연구를 통해 확산 언어 모델(DLM)이 자기 회귀 모델보다 더 인간 친화적이고 순서 변환에 안정적인 셀 어텐션을 테이블에 적용한다는 것을 확인했으며, 행 재정렬 시 어텐션-AUROC 변동성이 40.2% 감소했습니다. 이를 바탕으로, 우리는 계획 기반 테이블 추론 프레임워크인 TABALIGN을 제안합니다. TABALIGN은 마스크된 DLM 계획기(bidirectional denoising을 통해 계획 단계를 이진 셀 마스크로 출력)와 1,600개의 인간 검증된 어텐션 표준 데이터셋으로 학습된 경량 검증기인 TABATTN을 결합합니다. TABATTN은 각 단계를 계획된 마스크와의 어텐션 중첩을 기준으로 평가합니다. 테이블 질의 응답 및 사실 검증을 포함하는 8개의 벤치마크에서, TABALIGN은 8B 규모의 최적의 오픈 소스 모델을 기준으로 평균 정확도가 15.76% 향상되었습니다. 동일한 백본 구조를 사용한 실험 결과, DLM 계획기가 자기 회귀 계획기에 비해 2.87%의 정확도 향상을 가져왔습니다. 또한, 더 명확한 DLM 계획은 하위 추론 실행 속도를 44.64% 향상시킵니다.
Multi-step LLM reasoning over structured tables fails because planning and execution share no explicit cell-grounding contract. Existing methods constrain the planner to a left-to-right factorization at odds with table permutation invariance, and score intermediate states by generated content alone, overlooking cell grounding. We conduct a pilot study showing that diffusion language models (DLMs) produce more human-aligned and permutation-stable cell attention on tables than autoregressive models, with a 40.2% median reduction in attention-AUROC variability under row reordering. Motivated by this, we propose TABALIGN, a planned table reasoning framework that operationalizes the contract. TABALIGN pairs a masked DLM planner, whose bidirectional denoising emits plan steps as binary cell masks, with TABATTN, a lightweight verifier trained on 1,600 human-verified attention standards to score each step by its attention overlap with the plan-designated mask. Across eight benchmarks covering table question answering and fact verification, TABALIGN improves average accuracy by 15.76 percentage points over the strongest open-source baseline at comparable 8B-class scale, with a matched-backbone ablation attributing 2.87 percentage points of this gain to the DLM planner over an AR planner on a fixed reasoner. Cleaner DLM plans also accelerate downstream reasoning execution by 44.64%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.