2604.06829v1 Apr 08, 2026 cs.CL

WRAP++: 웹 검색 기반 지식 강화 사전 학습

WRAP++: Web discoveRy Amplified Pretraining

Xing Wu
Xing Wu
Citations: 77
h-index: 4
Feng Zhang
Feng Zhang
Citations: 14
h-index: 2
Jiangnan Zhou
Jiangnan Zhou
Citations: 0
h-index: 0
Tinghao Yu
Tinghao Yu
Citations: 2
h-index: 1
Yunhao Wang
Yunhao Wang
Citations: 38
h-index: 2

인공 데이터 재작성은 대규모 언어 모델(LLM)의 사전 학습 과정에서 지식 습득을 향상시키는 강력한 기술로 부상했습니다. 그러나 기존 방식은 단일 문서 수준에서 작동하며, 개별 웹 페이지를 독립적으로 재작성합니다. 이로 인해 생성된 예시는 문서 내 지식에 국한되며, 문서 간 관계를 놓치고 사실에 대한 제한적인 연관성 맥락을 제공합니다. 본 논문에서는 웹 하이퍼링크로부터 문서 간 관계를 발견하고, 각 발견된 문서 쌍에 대한 통합 질의응답(QA)을 생성하여 사실 지식의 연관성 맥락을 확장하는 WRAP++ (Web discoveRy Amplified Pretraining)을 제안합니다. 구체적으로, WRAP++은 이중 링크 및 공동 언급과 같은 높은 신뢰도의 관계 패턴을 발견하고, 두 문서 모두를 참조해야 하는 추론 능력을 요구하는 QA를 생성합니다. 이를 통해 각 원본 문서만으로는 얻을 수 없는 관계 지식을 생성하여 동일한 사실에 대한 다양한 접근 방식을 제공합니다. 유효한 개체 쌍의 수는 기하급수적으로 증가하므로, 이러한 발견 기반 합성은 단일 문서 재작성을 훨씬 뛰어넘는 데이터 규모를 확장합니다. Wikipedia를 사용하여 WRAP++을 구현한 결과, 약 84억 개의 원시 텍스트 토큰을 800억 개의 문서 간 QA 데이터 토큰으로 확장했습니다. SimpleQA 데이터셋에서 WRAP++을 사용하여 학습된 7B 및 32B 규모의 OLMo 기반 모델은 단일 문서 방식에 비해 현저히 뛰어난 성능을 보였으며, 지속적인 성능 향상을 보여주었습니다. 이는 문서 간 지식 발견 및 확장의 장점을 입증합니다.

Original Abstract

Synthetic data rephrasing has emerged as a powerful technique for enhancing knowledge acquisition during large language model (LLM) pretraining. However, existing approaches operate at the single-document level, rewriting individual web pages in isolation. This confines synthesized examples to intra-document knowledge, missing cross-document relationships and leaving facts with limited associative context. We propose WRAP++ (Web discoveRy Amplified Pretraining), which amplifies the associative context of factual knowledge by discovering cross-document relationships from web hyperlinks and synthesizing joint QA over each discovered document pair. Concretely, WRAP++ discovers high-confidence relational motifs including dual-links and co-mentions, and synthesizes QA that requires reasoning across both documents. This produces relational knowledge absent from either source document alone, creating diverse entry points to the same facts. Because the number of valid entity pairs grows combinatorially, this discovery-driven synthesis also amplifies data scale far beyond single-document rewriting. Instantiating WRAP++ on Wikipedia, we amplify ~8.4B tokens of raw text into 80B tokens of cross-document QA data. On SimpleQA, OLMo-based models at both 7B and 32B scales trained with WRAP++ substantially outperform single-document approaches and exhibit sustained scaling gains, underscoring the advantage of cross-document knowledge discovery and amplification.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!