맥락에서 기술로: 언어 모델은 맥락을 통해 얼마나 효과적으로 학습할 수 있는가?
From Context to Skills: Can Language Models Learn from Context Skillfully?
많은 실제 작업에서 언어 모델(LM)은 매개변수 지식을 초과하는 복잡한 맥락에 대해 추론해야 합니다. 이는 맥락 학습을 필요로 하며, 여기서 LM은 주어진 맥락에서 관련 지식을 직접 학습합니다. 직관적인 해결책은 추론 시간의 기술 증강입니다. 즉, 맥락에서 규칙과 절차를 추출하여 자연어 기술로 변환하는 것입니다. 그러나 맥락 학습 시나리오에서 이러한 기술을 구축하는 것은 두 가지 과제를 안고 있습니다. 첫째, 긴 기술적인 맥락에 대한 수동 기술 주석 비용이 매우 높습니다. 둘째, 자동화된 기술 구축에 대한 외부 피드백이 부족합니다. 제안된 기술이 유용한지 여부를 알려주는 자동 신호가 없기 때문입니다. 본 논문에서는 인간의 감독이나 외부 피드백 없이 맥락별 기술을 자율적으로 발견, 개선 및 선택하는 자체 진화 프레임워크인 Ctx2Skill을 제안합니다. 핵심은 다중 에이전트 자체 학습 루프로, 도발적인 작업과 평가 기준을 생성하는 챌린저, 진화하는 기술 세트를 기반으로 문제를 해결하려고 시도하는 리조너, 그리고 이진 피드백을 제공하는 중립적인 심판으로 구성됩니다. 중요한 점은 챌린저와 리조너 모두 축적된 기술을 통해 진화한다는 것입니다. 전용 프로포저 및 생성자 에이전트는 실패 사례를 분석하고 이를 분석하여 양측 모두에 대한 대상 기술 업데이트를 합성하여 자동 기술 발견 및 개선을 가능하게 합니다. 점점 더 극단적인 작업 생성과 과도하게 특화된 기술 축적에 의해 발생하는 적대적 붕괴를 방지하기 위해, 우리는 리조너 측에서 대표적인 사례에 대한 최적의 균형을 달성하는 기술 세트를 식별하는 크로스-타임 리플레이 메커니즘을 추가로 도입하여 강력하고 일반화 가능한 기술 진화를 보장합니다. 결과적으로 생성된 기술은 모든 언어 모델에 통합되어 더 나은 맥락 학습 능력을 제공할 수 있습니다. CL-bench의 네 가지 맥락 학습 작업에 대해 평가한 결과, Ctx2Skill은 다양한 기본 모델에서 일관되게 해결률을 향상시켰습니다.
Many real-world tasks require language models (LMs) to reason over complex contexts that exceed their parametric knowledge. This calls for context learning, where LMs directly learn relevant knowledge from the given context. An intuitive solution is inference-time skill augmentation: extracting the rules and procedures from context into natural-language skills. However, constructing such skills for context learning scenarios faces two challenges: the prohibitive cost of manual skill annotation for long, technically dense contexts, and the lack of external feedback for automated skill construction, since there is no automatic signal to tell whether a proposed skill is helpful. In this paper, we propose Ctx2Skill, a self-evolving framework that autonomously discovers, refines, and selects context-specific skills without human supervision or external feedback. At its core, a multi-agent self-play loop has a Challenger that generates probing tasks and rubrics, a Reasoner that attempts to solve them guided by an evolving skill set, and a neutral Judge that provides binary feedback. Crucially, both the Challenger and the Reasoner evolve through accumulated skills: dedicated Proposer and Generator agents analyze failure cases and synthesize them into targeted skill updates for both sides, enabling automated skill discovery and refinement. To prevent adversarial collapse caused by increasingly extreme task generation and over-specialized skill accumulation, we further introduce a Cross-time Replay mechanism that identifies the skill set achieving the best balance across representative cases for the Reasoner side, ensuring robust and generalizable skill evolution. The resulting skills can be plugged into any language model to obtain better context learning capability. Evaluated on four context learning tasks from CL-bench, Ctx2Skill consistently improves solving rates across backbone models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.