WRAP++: 웹 검색 기반 지식 강화 사전 학습
WRAP++: Web discoveRy Amplified Pretraining
인공 데이터 재작성은 대규모 언어 모델(LLM)의 사전 학습 과정에서 지식 습득을 향상시키는 강력한 기술로 부상했습니다. 그러나 기존 방식은 단일 문서 수준에서 작동하며, 개별 웹 페이지를 독립적으로 재작성합니다. 이로 인해 생성된 예시는 문서 내 지식에 국한되며, 문서 간 관계를 놓치고 사실에 대한 제한적인 연관성 맥락을 제공합니다. 본 논문에서는 웹 하이퍼링크로부터 문서 간 관계를 발견하고, 각 발견된 문서 쌍에 대한 통합 질의응답(QA)을 생성하여 사실 지식의 연관성 맥락을 확장하는 WRAP++ (Web discoveRy Amplified Pretraining)을 제안합니다. 구체적으로, WRAP++은 이중 링크 및 공동 언급과 같은 높은 신뢰도의 관계 패턴을 발견하고, 두 문서 모두를 참조해야 하는 추론 능력을 요구하는 QA를 생성합니다. 이를 통해 각 원본 문서만으로는 얻을 수 없는 관계 지식을 생성하여 동일한 사실에 대한 다양한 접근 방식을 제공합니다. 유효한 개체 쌍의 수는 기하급수적으로 증가하므로, 이러한 발견 기반 합성은 단일 문서 재작성을 훨씬 뛰어넘는 데이터 규모를 확장합니다. Wikipedia를 사용하여 WRAP++을 구현한 결과, 약 84억 개의 원시 텍스트 토큰을 800억 개의 문서 간 QA 데이터 토큰으로 확장했습니다. SimpleQA 데이터셋에서 WRAP++을 사용하여 학습된 7B 및 32B 규모의 OLMo 기반 모델은 단일 문서 방식에 비해 현저히 뛰어난 성능을 보였으며, 지속적인 성능 향상을 보여주었습니다. 이는 문서 간 지식 발견 및 확장의 장점을 입증합니다.
Synthetic data rephrasing has emerged as a powerful technique for enhancing knowledge acquisition during large language model (LLM) pretraining. However, existing approaches operate at the single-document level, rewriting individual web pages in isolation. This confines synthesized examples to intra-document knowledge, missing cross-document relationships and leaving facts with limited associative context. We propose WRAP++ (Web discoveRy Amplified Pretraining), which amplifies the associative context of factual knowledge by discovering cross-document relationships from web hyperlinks and synthesizing joint QA over each discovered document pair. Concretely, WRAP++ discovers high-confidence relational motifs including dual-links and co-mentions, and synthesizes QA that requires reasoning across both documents. This produces relational knowledge absent from either source document alone, creating diverse entry points to the same facts. Because the number of valid entity pairs grows combinatorially, this discovery-driven synthesis also amplifies data scale far beyond single-document rewriting. Instantiating WRAP++ on Wikipedia, we amplify ~8.4B tokens of raw text into 80B tokens of cross-document QA data. On SimpleQA, OLMo-based models at both 7B and 32B scales trained with WRAP++ substantially outperform single-document approaches and exhibit sustained scaling gains, underscoring the advantage of cross-document knowledge discovery and amplification.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.