LatentRefusal: 답변 불가능한 Text-to-SQL 질의를 위한 잠재 신호 거부
LatentRefusal: Latent-Signal Refusal for Unanswerable Text-to-SQL Queries
LLM 기반 Text-to-SQL 시스템에서 답변이 불가능하거나 명세가 불충분한 사용자 질의는 잘못된 텍스트를 생성할 뿐만 아니라, 오해의 소지가 있는 결과를 산출하거나 안전 제약 조건을 위반하는 실행 가능한 프로그램을 생성할 수 있어 안전한 시스템 배포에 큰 장벽이 된다. 이러한 질의에 대한 기존의 거부 전략은 모델의 환각 현상(hallucination)으로 인해 취약한 출력 수준의 지시 이행에 의존하거나, 복잡성과 오버헤드를 가중시키는 출력 불확실성 추정에 의존한다. 이 문제를 해결하기 위해 본 연구에서는 Text-to-SQL 시스템에서의 안전한 거부(refusal)를 답변 가능성 게이팅(answerability-gating) 문제로 정식화하고, 거대 언어 모델의 중간 은닉 활성화(intermediate hidden activations) 값으로부터 질의의 답변 가능성을 예측하는 잠재 신호 거부 메커니즘인 LatentRefusal을 제안한다. 또한 스키마 노이즈를 억제하고 답변 불가능성을 나타내는 질문-스키마 불일치의 희소하고 국소적인 단서를 증폭하기 위해 경량 프로빙 아키텍처인 Tri-Residual Gated Encoder를 도입한다. 다양한 모호하고 답변 불가능한 환경에서의 광범위한 실증적 평가와 소거 연구(ablation study) 및 해석 가능성 분석을 통해 제안된 접근 방식의 유효성을 입증하였으며, LatentRefusal이 Text-to-SQL 시스템을 위한 부착 가능하고 효율적인 안전 계층을 제공함을 보여준다. 4개의 벤치마크 전반에 걸쳐 LatentRefusal은 약 2밀리초의 프로브 오버헤드만을 추가하면서 두 백본 모델 모두에서 평균 F1 점수를 88.5%까지 향상시켰다.
In LLM-based text-to-SQL systems, unanswerable and underspecified user queries may generate not only incorrect text but also executable programs that yield misleading results or violate safety constraints, posing a major barrier to safe deployment. Existing refusal strategies for such queries either rely on output-level instruction following, which is brittle due to model hallucinations, or estimate output uncertainty, which adds complexity and overhead. To address this challenge, we formalize safe refusal in text-to-SQL systems as an answerability-gating problem and propose LatentRefusal, a latent-signal refusal mechanism that predicts query answerability from intermediate hidden activations of a large language model. We introduce the Tri-Residual Gated Encoder, a lightweight probing architecture, to suppress schema noise and amplify sparse, localized cues of question-schema mismatch that indicate unanswerability. Extensive empirical evaluations across diverse ambiguous and unanswerable settings, together with ablation studies and interpretability analyses, demonstrate the effectiveness of the proposed approach and show that LatentRefusal provides an attachable and efficient safety layer for text-to-SQL systems. Across four benchmarks, LatentRefusal improves average F1 to 88.5 percent on both backbones while adding approximately 2 milliseconds of probe overhead.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.