2604.27660v1 Apr 30, 2026 cs.AI

맥락에서 기술로: 언어 모델은 맥락을 통해 얼마나 효과적으로 학습할 수 있는가?

From Context to Skills: Can Language Models Learn from Context Skillfully?

Dingwei Chen
Dingwei Chen
Citations: 35
h-index: 3
Shuzheng Si
Shuzheng Si
Citations: 32
h-index: 3
Kangyang Luo
Kangyang Luo
Citations: 73
h-index: 5
Qingyi Wang
Qingyi Wang
Citations: 24
h-index: 3
Gang Chen
Gang Chen
Citations: 91
h-index: 6
Fanchao Qi
Fanchao Qi
Tsinghua University
Citations: 3,599
h-index: 24
Maosong Sun
Maosong Sun
Citations: 94
h-index: 5
Zhenhailong Wang
Zhenhailong Wang
Citations: 231
h-index: 6
Yueting Lei
Yueting Lei
Citations: 5
h-index: 1
Haozhe Zhao
Haozhe Zhao
Citations: 1,272
h-index: 12
Zhitong Wang
Zhitong Wang
Citations: 52
h-index: 4
Zheng Wang
Zheng Wang
Citations: 5
h-index: 1
Minjia Zhang
Minjia Zhang
Citations: 6
h-index: 2

많은 실제 작업에서 언어 모델(LM)은 매개변수 지식을 초과하는 복잡한 맥락에 대해 추론해야 합니다. 이는 맥락 학습을 필요로 하며, 여기서 LM은 주어진 맥락에서 관련 지식을 직접 학습합니다. 직관적인 해결책은 추론 시간의 기술 증강입니다. 즉, 맥락에서 규칙과 절차를 추출하여 자연어 기술로 변환하는 것입니다. 그러나 맥락 학습 시나리오에서 이러한 기술을 구축하는 것은 두 가지 과제를 안고 있습니다. 첫째, 긴 기술적인 맥락에 대한 수동 기술 주석 비용이 매우 높습니다. 둘째, 자동화된 기술 구축에 대한 외부 피드백이 부족합니다. 제안된 기술이 유용한지 여부를 알려주는 자동 신호가 없기 때문입니다. 본 논문에서는 인간의 감독이나 외부 피드백 없이 맥락별 기술을 자율적으로 발견, 개선 및 선택하는 자체 진화 프레임워크인 Ctx2Skill을 제안합니다. 핵심은 다중 에이전트 자체 학습 루프로, 도발적인 작업과 평가 기준을 생성하는 챌린저, 진화하는 기술 세트를 기반으로 문제를 해결하려고 시도하는 리조너, 그리고 이진 피드백을 제공하는 중립적인 심판으로 구성됩니다. 중요한 점은 챌린저와 리조너 모두 축적된 기술을 통해 진화한다는 것입니다. 전용 프로포저 및 생성자 에이전트는 실패 사례를 분석하고 이를 분석하여 양측 모두에 대한 대상 기술 업데이트를 합성하여 자동 기술 발견 및 개선을 가능하게 합니다. 점점 더 극단적인 작업 생성과 과도하게 특화된 기술 축적에 의해 발생하는 적대적 붕괴를 방지하기 위해, 우리는 리조너 측에서 대표적인 사례에 대한 최적의 균형을 달성하는 기술 세트를 식별하는 크로스-타임 리플레이 메커니즘을 추가로 도입하여 강력하고 일반화 가능한 기술 진화를 보장합니다. 결과적으로 생성된 기술은 모든 언어 모델에 통합되어 더 나은 맥락 학습 능력을 제공할 수 있습니다. CL-bench의 네 가지 맥락 학습 작업에 대해 평가한 결과, Ctx2Skill은 다양한 기본 모델에서 일관되게 해결률을 향상시켰습니다.

Original Abstract

Many real-world tasks require language models (LMs) to reason over complex contexts that exceed their parametric knowledge. This calls for context learning, where LMs directly learn relevant knowledge from the given context. An intuitive solution is inference-time skill augmentation: extracting the rules and procedures from context into natural-language skills. However, constructing such skills for context learning scenarios faces two challenges: the prohibitive cost of manual skill annotation for long, technically dense contexts, and the lack of external feedback for automated skill construction, since there is no automatic signal to tell whether a proposed skill is helpful. In this paper, we propose Ctx2Skill, a self-evolving framework that autonomously discovers, refines, and selects context-specific skills without human supervision or external feedback. At its core, a multi-agent self-play loop has a Challenger that generates probing tasks and rubrics, a Reasoner that attempts to solve them guided by an evolving skill set, and a neutral Judge that provides binary feedback. Crucially, both the Challenger and the Reasoner evolve through accumulated skills: dedicated Proposer and Generator agents analyze failure cases and synthesize them into targeted skill updates for both sides, enabling automated skill discovery and refinement. To prevent adversarial collapse caused by increasingly extreme task generation and over-specialized skill accumulation, we further introduce a Cross-time Replay mechanism that identifies the skill set achieving the best balance across representative cases for the Reasoner side, ensuring robust and generalizable skill evolution. The resulting skills can be plugged into any language model to obtain better context learning capability. Evaluated on four context learning tasks from CL-bench, Ctx2Skill consistently improves solving rates across backbone models.

0 Citations
0 Influential
12 Altmetric
60.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!