ThinknCheck: 지식 기반 주장에 대한 검증 - 간결하고, 추론 기반이며, 해석 가능한 모델을 활용
ThinknCheck: Grounded Claim Verification with Compact, Reasoning-Driven, and Interpretable Models
본 논문에서는 ThinknCheck라는 10억 개의 파라미터를 가진 검증 모델을 제시합니다. 이 모델은 지식 기반 주장에 대한 검증을 수행하며, 먼저 짧고 구조화된 근거를 생성한 다음, 이분법적인 판단을 내립니다. 우리는 LLMAggreFact 데이터셋을 기반으로 24,100개의 추론 강화된 학습 데이터셋인 LLMAggreFact-Think을 구축하고, 4비트 Gemma3 모델을 미세 조정하여 이 형식을 따르도록 합니다. LLMAggreFact 데이터셋에서 ThinknCheck은 78.1%의 균형 잡힌 정확도(BAcc)를 달성하여, 7배 적은 파라미터로 MiniCheck-7B(77.4%)를 능가합니다. 추론 단계를 제거하면 BAcc는 57.5%로 감소합니다. SciFact 데이터셋에서 ThinknCheck은 64.7%의 BAcc를 달성하여, MiniCheck-7B보다 14.7%p 더 높은 성능을 보입니다. 반면, 기본 Gemma3-1B 모델에 대한 제로샷 체인 오브 씽크(Chain-of-Thought) 방식은 직접 답변 방식보다 정확도를 저하시키며, 간단한 형식과 정확도 보상을 사용한 선호도 최적화는 지도 학습 기반 추론보다 성능이 낮습니다. 이를 탐구하기 위해, 우리는 GSMClaims 데이터셋과 과학 분야에 특화된 변형인 ThinknCheck-Science를 소개하며, 이 모델은 다양한 벤치마크에서 성능을 향상시켰습니다. 특히, GSMClaims 데이터셋에서 61.0%의 정확도를 달성했습니다. 전반적으로, 명시적인 지도 학습 기반 추론은 경쟁력 있는 성능을 유지하면서도, 리소스 효율적이고 해석 가능한 모델을 가능하게 합니다.
We present ThinknCheck, a 1B-parameter verifier for grounded claim verification that first produces a short, structured rationale and then a binary verdict. We construct LLMAggreFact-Think, a 24.1k reasoning-augmented training set derived from LLMAggreFact, and fine-tune a 4-bit Gemma3 model to follow this format. On LLMAggreFact, ThinknCheck attains 78.1 balanced accuracy (BAcc), surpassing MiniCheck-7B (77.4) with 7x fewer parameters; removing the reasoning step reduces BAcc to 57.5. On SciFact, ThinknCheck reaches 64.7 BAcc, a +14.7 absolute gain over MiniCheck-7B. By contrast, zero-shot chain-of-thought on the base Gemma3-1B harms accuracy relative to direct answers, and preference optimization with a simple format+accuracy reward underperforms supervised reasoning. To probe the latter, we introduce GSMClaims and a domain-specialized variant, ThinknCheck-Science, which improves across benchmarks, including 61.0\% accuracy on GSMClaims. Overall, explicit, supervised reasoning enables compact verifiers that are competitive while remaining resource-efficient and interpretable.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.