LLM은 언제 덜 구체적이어야 하는가? 신뢰할 수 있는 장문 텍스트 생성을 위한 선택적 추상화
When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation
LLM이 널리 사용되고 있지만, 여전히 사실적 오류를 범하기 쉬워 사용자 신뢰를 저하하고 고위험 환경에서의 도입을 제한하고 있다. 이러한 위험을 완화하는 한 가지 접근법은 모델에 불확실성 추정 메커니즘을 적용하여 확신도가 낮을 때 답변을 거부하게 하는 것이다. 그러나 이러한 이분법적인 '전부 아니면 전무' 식의 접근은 장문 생성 환경에서는 지나치게 제한적이며, 종종 유용한 정보를 폐기하게 만든다. 본 논문에서는 불확실한 내용의 세부 수준을 선택적으로 낮춤으로써 LLM이 구체성과 신뢰성을 절충할 수 있도록 하는 프레임워크인 '선택적 추상화(Selective Abstraction, SA)'를 소개한다. 먼저 선택적 위험과 커버리지의 관점에서 SA를 공식화한다. 그런 다음 응답을 원자적 주장(단일 사실을 표현하는 짧고 독립적인 진술)으로 분해하고, 불확실한 원자를 확신도가 더 높으면서 덜 구체적인 추상화로 대체하는 주장 수준의 구현체인 '원자 단위 선택적 추상화(Atom-wise Selective Abstraction)'를 제안한다. 이 프레임워크를 평가하기 위해, 위험을 사실적 정확성으로 정의하고 커버리지를 보존된 정보의 정보 이론적 척도로 측정하는 새로운 개방형 생성 평가 파이프라인을 개발했다. FactScore와 LongFact-Objects 벤치마크에서 6개의 오픈 소스 모델을 대상으로 실험한 결과, 원자 단위 SA는 기존 베이스라인을 일관되게 능가했으며, 주장 제거 방식 대비 위험-커버리지 곡선 아래 면적(AURC)을 최대 27.73% 향상시켰다. 이는 구체성을 줄이는 것이 원래 의미의 대부분을 보존하면서도 정확성과 신뢰성을 높일 수 있음을 입증한다.
LLMs are widely used, yet they remain prone to factual errors that erode user trust and limit adoption in high-risk settings. One approach to mitigate this risk is to equip models with uncertainty estimation mechanisms that abstain when confidence is low. However, this binary "all-or-nothing" approach is excessively restrictive in long-form settings, often discarding valuable information. We introduce Selective Abstraction (SA), a framework that enables LLMs to trade specificity for reliability by selectively reducing the detail of uncertain content. We first formalize SA through the lenses of selective risk and coverage. We then propose Atom-wise Selective Abstraction, a claim-level instantiation that decomposes responses into atomic claims (short, self-contained statements each expressing a single fact) and replaces uncertain atoms with higher confidence, less specific abstractions. To evaluate this framework, we develop a novel end-to-end pipeline for open-ended generation that instantiates risk as factual correctness and measures coverage using an information-theoretic measure of retained information. Across six open-source models on the FactScore and LongFact-Objects benchmarks, atom-wise SA consistently outperforms existing baselines, improving the area under the risk-coverage curve (AURC) by up to 27.73% over claim removal, demonstrating that reducing specificity can boost accuracy and reliability while preserving most of their original meaning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.