기원 추적: 사전 학습 LLM의 데이터 계보를 파악하기 위한 멀티 에이전트 프레임워크
Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs
사전 학습 데이터는 대규모 언어 모델(LLM)의 성능을 결정하는 데 중요한 역할을 하지만, 데이터 세트는 종종 고립된 결과물로 취급되어, 데이터 세트 발전의 근본적인 연결 관계가 간과됩니다. 이러한 복잡한 관계를 이해하기 위해, 우리는 LLM 생태계에 **데이터 계보(data lineage)** 개념을 도입하고, 데이터 세트 개발의 진화 과정을 재구성하기 위한 자동화된 멀티 에이전트 프레임워크를 제안합니다. 대규모 계보 분석을 통해, 수학 관련 데이터 세트의 수직적 개선 및 일반 영역 코퍼스의 수평적 통합과 같은 도메인별 구조적 패턴을 분석했습니다. 또한, 암묵적인 데이터 세트 교차로 인해 발생하는 **구조적 중복성** 및 계보 경로를 따라 전파되는 **벤치마크 오염**과 같은 광범위한 체계적인 문제를 발견했습니다. 데이터 구축에 대한 계보 분석의 실질적인 가치를 입증하기 위해, 재구성된 계보 그래프를 활용하여 **계보 기반의 다양성 지향 데이터 세트**를 생성했습니다. 상위 계층의 근원 데이터 소스를 기준으로 지시문 샘플링을 수행함으로써, 이 접근 방식은 다운스트림의 균일화 및 숨겨진 중복성을 완화하여 더욱 다양한 사전 학습 코퍼스를 얻을 수 있습니다. 또한, 계보 중심 분석이 대규모 데이터 생태계에서 샘플 수준의 데이터 세트 비교에 대한 효율적이고 강력한 대안임을 강조합니다. 명시적인 계보 구조를 기반으로 데이터 구축을 수행함으로써, 우리의 연구는 사전 학습 데이터 큐레이션을 보다 체계적이고 제어 가능한 패러다임으로 발전시킵니다.
Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of \textbf{data lineage} to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including \textit{structural redundancy} induced by implicit dataset intersections and the \textit{propagation of benchmark contamination} along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a \textit{lineage-aware diversity-oriented dataset}. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.