2601.11258v1 Jan 16, 2026 cs.LG

지식만으로는 충분하지 않다: 지속적인 적응을 위한 강화 학습 기술 주입

Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Muhan Zhang
Muhan Zhang
Citations: 15
h-index: 1
Pingzhi Tang
Pingzhi Tang
Citations: 23
h-index: 2
Yiding Wang
Yiding Wang
Peking University
Citations: 60
h-index: 4

대규모 언어 모델(LLM)은 '지식 정체'라는 과제를 안고 있는데, 이는 모델의 고정된 파라미터 메모리가 새로운 정보를 직접적으로 내재화하는 것을 방해하기 때문입니다. 지도 미세 조정(SFT)은 모델 지식을 업데이트하는 데 일반적으로 사용되지만, 종종 사실적인 내용을 업데이트하면서 모델이 새로 통합된 정보를 질문 답변이나 의사 결정에 활용하는 능력을 신뢰성 있게 향상시키지 못합니다. 강화 학습(RL)은 추론 능력을 습득하는 데 필수적이지만, 높은 계산 비용으로 인해 효율적인 온라인 적응에는 비실용적입니다. 우리는 경험적으로 SFT와 RL에 의해 유발되는 파라미터 업데이트가 거의 직교한다는 것을 확인했습니다. 이러한 관찰을 바탕으로, 우리는 효율적이고 효과적인 지식 적응을 지원하는 모듈식 기술 전송을 가능하게 하는 프레임워크인 파라미터 기술 전송(PaST)을 제안합니다. 소스 도메인에서 도메인 불특정 기술 벡터를 추출하여, 새로운 데이터에 대한 경량 SFT를 수행한 후 대상 모델에 지식 조작 기술을 선형적으로 주입할 수 있습니다. 지식 통합 질문 답변(SQuAD, LooGLE) 및 에이전트 기반 도구 사용 벤치마크(ToolBench)에서의 실험 결과는 제안하는 방법의 효과를 입증합니다. SQuAD에서 PaST는 최첨단 자기 수정 SFT 기준 모델보다 최대 9.9점이 더 높습니다. PaST는 또한 LooGLE의 장문 맥락 질문 답변에 적용되어 8.0점의 절대적인 정확도 향상을 보였으며, ToolBench의 제로샷 성공률을 평균 +10.3점 향상시켰습니다. 이는 도구 범주 전반에 걸쳐 일관된 성능 향상을 보여주며, 기술 벡터의 강력한 확장성과 교차 도메인 전송성을 나타냅니다.

Original Abstract

Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.

1 Citations
0 Influential
2 Altmetric
11.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!