2604.01652v1 Apr 02, 2026 cs.AI

ThinknCheck: 지식 기반 주장에 대한 검증 - 간결하고, 추론 기반이며, 해석 가능한 모델을 활용

ThinknCheck: Grounded Claim Verification with Compact, Reasoning-Driven, and Interpretable Models

Feijiang Han
Feijiang Han
Citations: 126
h-index: 7
D. Rao
D. Rao
Citations: 25
h-index: 3
Christopher Callison-Burch
Christopher Callison-Burch
Citations: 1,245
h-index: 14

본 논문에서는 ThinknCheck라는 10억 개의 파라미터를 가진 검증 모델을 제시합니다. 이 모델은 지식 기반 주장에 대한 검증을 수행하며, 먼저 짧고 구조화된 근거를 생성한 다음, 이분법적인 판단을 내립니다. 우리는 LLMAggreFact 데이터셋을 기반으로 24,100개의 추론 강화된 학습 데이터셋인 LLMAggreFact-Think을 구축하고, 4비트 Gemma3 모델을 미세 조정하여 이 형식을 따르도록 합니다. LLMAggreFact 데이터셋에서 ThinknCheck은 78.1%의 균형 잡힌 정확도(BAcc)를 달성하여, 7배 적은 파라미터로 MiniCheck-7B(77.4%)를 능가합니다. 추론 단계를 제거하면 BAcc는 57.5%로 감소합니다. SciFact 데이터셋에서 ThinknCheck은 64.7%의 BAcc를 달성하여, MiniCheck-7B보다 14.7%p 더 높은 성능을 보입니다. 반면, 기본 Gemma3-1B 모델에 대한 제로샷 체인 오브 씽크(Chain-of-Thought) 방식은 직접 답변 방식보다 정확도를 저하시키며, 간단한 형식과 정확도 보상을 사용한 선호도 최적화는 지도 학습 기반 추론보다 성능이 낮습니다. 이를 탐구하기 위해, 우리는 GSMClaims 데이터셋과 과학 분야에 특화된 변형인 ThinknCheck-Science를 소개하며, 이 모델은 다양한 벤치마크에서 성능을 향상시켰습니다. 특히, GSMClaims 데이터셋에서 61.0%의 정확도를 달성했습니다. 전반적으로, 명시적인 지도 학습 기반 추론은 경쟁력 있는 성능을 유지하면서도, 리소스 효율적이고 해석 가능한 모델을 가능하게 합니다.

Original Abstract

We present ThinknCheck, a 1B-parameter verifier for grounded claim verification that first produces a short, structured rationale and then a binary verdict. We construct LLMAggreFact-Think, a 24.1k reasoning-augmented training set derived from LLMAggreFact, and fine-tune a 4-bit Gemma3 model to follow this format. On LLMAggreFact, ThinknCheck attains 78.1 balanced accuracy (BAcc), surpassing MiniCheck-7B (77.4) with 7x fewer parameters; removing the reasoning step reduces BAcc to 57.5. On SciFact, ThinknCheck reaches 64.7 BAcc, a +14.7 absolute gain over MiniCheck-7B. By contrast, zero-shot chain-of-thought on the base Gemma3-1B harms accuracy relative to direct answers, and preference optimization with a simple format+accuracy reward underperforms supervised reasoning. To probe the latter, we introduce GSMClaims and a domain-specialized variant, ThinknCheck-Science, which improves across benchmarks, including 61.0\% accuracy on GSMClaims. Overall, explicit, supervised reasoning enables compact verifiers that are competitive while remaining resource-efficient and interpretable.

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!