2602.10380v1 Feb 11, 2026 cs.CL

분해 기반 주장 검증의 정렬 문제: 병목 현상

The Alignment Bottleneck in Decomposition-Based Claim Verification

Mahmud Elahi Akhter
Mahmud Elahi Akhter
North South university
Citations: 59
h-index: 5
I. Bilal
I. Bilal
Citations: 136
h-index: 5
Rob Procter
Rob Procter
Citations: 4
h-index: 1
Maria Liakata
Maria Liakata
Citations: 7,976
h-index: 39
F. Ruggeri
F. Ruggeri
Citations: 302
h-index: 10

복잡하고 다면적인 주장을 검증하기 위한 해결책으로 구조화된 주장 분해가 종종 제안되지만, 실제 실험 결과는 일관되지 않았습니다. 본 연구에서는 이러한 불일치가 간과된 두 가지 병목 현상, 즉 증거 정렬 및 하위 주장 오류 프로필에서 비롯된다고 주장합니다. 이러한 요인들을 더 잘 이해하기 위해, 우리는 시간적으로 제한된 증거와 인간이 주석을 달아준 하위 주장 증거 범위를 포함하는 실제 복잡한 주장 데이터셋을 소개합니다. 우리는 하위 주장 정렬 증거(SAE) 및 반복적인 주장 수준 증거(SRE)라는 두 가지 증거 정렬 방식을 사용하여 분해 성능을 평가했습니다. 우리의 결과는 증거가 세분화되고 엄격하게 정렬될 때 분해가 상당한 성능 향상을 가져온다는 것을 보여줍니다. 반면, 반복적인 주장 수준 증거(SRE)에 의존하는 일반적인 방식은 성능 향상을 가져오지 못하고, 여러 데이터셋 및 도메인(PHEMEPlus, MMM-Fact, COVID-Fact)에서 성능 저하를 초래하는 것으로 나타났습니다. 또한, 노이즈가 있는 하위 주장 레이블이 존재할 때, 오류의 특성이 하위 모델의 안정성에 영향을 미친다는 것을 보여줍니다. 보수적인 '기권' 전략은 공격적이지만 부정확한 예측에 비해 오류 확산을 크게 줄이는 것으로 나타났습니다. 이러한 결과는 향후 주장 분해 프레임워크가 정확한 증거 통합을 우선시하고 하위 주장 검증 모델의 레이블 편향을 조정해야 함을 시사합니다.

Original Abstract

Structured claim decomposition is often proposed as a solution for verifying complex, multi-faceted claims, yet empirical results have been inconsistent. We argue that these inconsistencies stem from two overlooked bottlenecks: evidence alignment and sub-claim error profiles. To better understand these factors, we introduce a new dataset of real-world complex claims, featuring temporally bounded evidence and human-annotated sub-claim evidence spans. We evaluate decomposition under two evidence alignment setups: Sub-claim Aligned Evidence (SAE) and Repeated Claim-level Evidence (SRE). Our results reveal that decomposition brings significant performance improvement only when evidence is granular and strictly aligned. By contrast, standard setups that rely on repeated claim-level evidence (SRE) fail to improve and often degrade performance as shown across different datasets and domains (PHEMEPlus, MMM-Fact, COVID-Fact). Furthermore, we demonstrate that in the presence of noisy sub-claim labels, the nature of the error ends up determining downstream robustness. We find that conservative "abstention" significantly reduces error propagation compared to aggressive but incorrect predictions. These findings suggest that future claim decomposition frameworks must prioritize precise evidence synthesis and calibrate the label bias of sub-claim verification models.

0 Citations
0 Influential
19.5 Altmetric
97.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!