2603.22213v1 Mar 23, 2026 cs.LG

SPA: 지식 주입을 위한 간단하지만 뛰어난 성능을 보이는 기준 모델

SPA: A Simple but Tough-to-Beat Baseline for Knowledge Injection

Jianing Wang
Jianing Wang
Citations: 24
h-index: 2
Kexian Tang
Kexian Tang
Citations: 95
h-index: 2
Shaowen Wang
Shaowen Wang
Citations: 208
h-index: 5
Kaifeng Lyu
Kaifeng Lyu
Citations: 75
h-index: 4

대규모 언어 모델(LLM)은 방대한 데이터로 사전 훈련되지만, 특정 분야나 데이터가 부족한 영역에서는 지식 보완이 필요하며, 이를 위해 지식 주입을 위한 합성 데이터 생성 연구가 활발히 진행되고 있습니다. 본 논문에서는 SPA(Scaling Prompt-engineered Augmentation)라는 간단하지만 뛰어난 성능을 보이는 기준 모델을 제안합니다. SPA는 신중하게 설계된 작은 프롬프트 세트를 사용하여 대규모의 합성 데이터를 생성하여 지식 주입에 활용합니다. 체계적인 비교를 통해 SPA는 여러 강력한 기준 모델보다 우수한 성능을 보임을 확인했습니다. 또한, 기존 방법의 두 가지 주요 한계를 확인했습니다. 첫째, 강화 학습 기반 방법은 작은 규모에서는 LLM 기반 데이터 증강의 토큰 효율성을 향상시킬 수 있지만, 데이터 규모가 커짐에 따라 다양성이 감소하여 효율이 떨어집니다. 둘째, 다단계 프롬프팅은 간단한 증강 방법보다 우수한 성능을 보일 수 있지만, 프롬프트 튜닝을 통해 이러한 장점이 사라질 수 있습니다. 본 연구 결과는 지식 주입에 있어 신중한 프롬프트 설계와 간단한 대규모 증강 기술의 조합이 놀라울 정도로 효과적일 수 있음을 시사하며, SPA가 향후 이 분야의 연구를 위한 강력한 기준 모델로 활용될 수 있기를 바랍니다. 저희 코드는 https://github.com/Tangkexian/SPA 에서 확인할 수 있습니다.

Original Abstract

While large language models (LLMs) are pretrained on massive amounts of data, their knowledge coverage remains incomplete in specialized, data-scarce domains, motivating extensive efforts to study synthetic data generation for knowledge injection. We propose SPA (Scaling Prompt-engineered Augmentation), a simple but tough-to-beat baseline that uses a small set of carefully designed prompts to generate large-scale synthetic data for knowledge injection. Through systematic comparisons, we find that SPA outperforms several strong baselines. Furthermore, we identify two key limitations of prior approaches: (1) while RL-based methods may improve the token efficiency of LLM-based data augmentation at small scale, they suffer from diversity collapse as data scales, leading to diminishing returns; and (2) while multi-stage prompting may outperform simple augmentation methods, their advantages can disappear after careful prompt tuning. Our results suggest that, for knowledge injection, careful prompt design combined with straightforward large-scale augmentation can be surprisingly effective, and we hope SPA can serve as a strong baseline for future studies in this area. Our code is available at https://github.com/Tangkexian/SPA.

0 Citations
0 Influential
32.897207708399 Altmetric
164.5 Score
Original PDF
7

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!