SCURank: 요약 내용 단위를 활용한 다중 후보 요약 순위 결정 방법 - 향상된 요약 성능을 위한 제안
SCURank: Ranking Multiple Candidate Summaries with Summary Content Units for Enhanced Summarization
작은 언어 모델(SLM)은 BART와 같이, 지식 증류(distillation)를 통해 대규모 언어 모델(LLM)에 필적하는 요약 성능을 달성할 수 있습니다. 그러나 기존 LLM 기반 요약 후보 순위 결정 전략은 불안정성을 겪는 반면, 전통적인 평가 지표(예: ROUGE)는 고품질 요약을 평가하는 데 충분하지 않습니다. 이러한 문제점을 해결하기 위해, 본 논문에서는 요약 내용 단위(Summary Content Units, SCU)를 활용하여 요약 성능을 향상시키는 프레임워크인 SCURank를 제안합니다. SCURank는 불안정한 비교나 표면적인 중복에 의존하는 대신, 정보 내용의 풍부함과 의미적 중요성을 기반으로 요약을 평가합니다. 우리는 SCURank가 다양한 LLM으로부터 요약을 추출하는 데 얼마나 효과적인지 조사했습니다. 실험 결과는 SCURank가 전통적인 평가 지표 및 LLM 기반 순위 결정 방법보다 다양한 평가 지표 및 데이터셋에서 우수한 성능을 보임을 보여줍니다. 또한, 다양한 LLM 요약을 통합하면 모델의 추상화 능력과 전체적인 지식 증류 모델 성능이 향상된다는 것을 확인했으며, 이는 다중 LLM 지식 증류에서 정보 중심 순위 결정의 이점을 입증합니다. SCURank 코드는 https://github.com/IKMLab/SCURank 에서 확인할 수 있습니다.
Small language models (SLMs), such as BART, can achieve summarization performance comparable to large language models (LLMs) via distillation. However, existing LLM-based ranking strategies for summary candidates suffer from instability, while classical metrics (e.g., ROUGE) are insufficient to rank high-quality summaries. To address these issues, we introduce \textbf{SCURank}, a framework that enhances summarization by leveraging \textbf{Summary Content Units (SCUs)}. Instead of relying on unstable comparisons or surface-level overlap, SCURank evaluates summaries based on the richness and semantic importance of information content. We investigate the effectiveness of SCURank in distilling summaries from multiple diverse LLMs. Experimental results demonstrate that SCURank outperforms traditional metrics and LLM-based ranking methods across evaluation measures and datasets. Furthermore, our findings show that incorporating diverse LLM summaries enhances model abstractiveness and overall distilled model performance, validating the benefits of information-centric ranking in multi-LLM distillation. The code for SCURank is available at https://github.com/IKMLab/SCURank.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.