글로벌 구조 인식 기반 텍스트 요약
Text summarization via global structure awareness
텍스트 요약은 자연어 처리(NLP)의 기본적인 과제이며, 정보 과잉 시대에 장문의 문서를 처리하는 것은 점점 더 중요해지고 있습니다. 기존 연구는 주로 모델 개선 및 문장 단위의 생략에 초점을 맞추지만, 종종 전체적인 구조를 간과하여 일관성이 깨지고 후속 작업의 성능이 저하되는 문제가 발생합니다. 일부 연구에서는 대규모 언어 모델(LLM)을 사용하지만, 이는 높은 정확도를 제공하는 반면 상당한 자원과 시간 비용을 발생시킵니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 위상 데이터 분석(TDA)을 통해 글로벌 구조 인식을 달성하는 최초의 요약 방법인 GloSA-sum을 제안합니다. GloSA-sum은 의미 핵심 내용과 논리적 의존성을 유지하면서 텍스트를 효율적으로 요약합니다. 구체적으로, 문장 임베딩으로부터 의미 가중 그래프를 구성하고, 지속적 호모로지(persistent homology)를 사용하여 핵심 의미와 논리적 구조를 식별하여 요약의 기반이 되는 "보호 풀(protection pool)"에 저장합니다. 또한, 문장 중요도를 추정하기 위해 경량화된 프록시 지표를 사용하고, 반복적인 고비용 연산을 피하는 토폴로지 기반의 반복 전략을 설계하여 구조적 완전성을 유지하면서 효율성을 향상시킵니다. 더 나아가, 장문의 텍스트 처리를 개선하기 위해, 세그먼트 수준과 전체 요약을 통합하는 계층적 전략을 제안합니다. 여러 데이터 세트에 대한 실험 결과, GloSA-sum은 중복을 줄이면서 의미 및 논리적 완전성을 유지하며, 정확성과 효율성 사이의 균형을 이루고, LLM의 후속 작업에 유용한 정보를 제공하는 동시에 불필요한 문맥을 줄여 추론 체인을 유지하는 데 기여합니다.
Text summarization is a fundamental task in natural language processing (NLP), and the information explosion has made long-document processing increasingly demanding, making summarization essential. Existing research mainly focuses on model improvements and sentence-level pruning, but often overlooks global structure, leading to disrupted coherence and weakened downstream performance. Some studies employ large language models (LLMs), which achieve higher accuracy but incur substantial resource and time costs. To address these issues, we introduce GloSA-sum, the first summarization approach that achieves global structure awareness via topological data analysis (TDA). GloSA-sum summarizes text efficiently while preserving semantic cores and logical dependencies. Specifically, we construct a semantic-weighted graph from sentence embeddings, where persistent homology identifies core semantics and logical structures, preserved in a ``protection pool'' as the backbone for summarization. We design a topology-guided iterative strategy, where lightweight proxy metrics approximate sentence importance to avoid repeated high-cost computations, thus preserving structural integrity while improving efficiency. To further enhance long-text processing, we propose a hierarchical strategy that integrates segment-level and global summarization. Experiments on multiple datasets demonstrate that GloSA-sum reduces redundancy while preserving semantic and logical integrity, striking a balance between accuracy and efficiency, and further benefits LLM downstream tasks by shortening contexts while retaining essential reasoning chains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.