자연어 피드백을 통한 인터랙티브 인-컨텍스트 학습 개선
Improving Interactive In-Context Learning from Natural Language Feedback
교정 피드백에 기반하여 사고 과정을 조정하는 능력은 인간 학습, 특히 협업 환경에서 필수적인 능력입니다. 반면, 현재의 대규모 언어 모델 학습 패러다임은 방대한 정적 데이터 코퍼스를 모델링하는 데 크게 의존합니다. 지식 습득에는 효과적이지만, 모델이 상황에 따라 동적으로 적응하는 데 필수적인 인터랙티브 피드백 루프를 간과합니다. 본 연구에서는 이러한 인터랙티브 인-컨텍스트 학습 능력을 단순히 자연 발생적인 특성이 아닌, 별도의 훈련 가능한 기술로 간주하는 프레임워크를 제안합니다. 우리는 정보 비대칭을 기반으로 단일 턴의 검증 가능한 작업을 다중 턴의 교육적 상호 작용으로 변환하는 확장 가능한 방법을 소개합니다. 먼저, 현재의 최첨단 모델이 어려운 추론 작업에 대한 교정 피드백을 통합하는 데 어려움을 겪는다는 것을 보여줍니다. 그런 다음, 우리의 접근 방식으로 훈련된 모델이 언어 피드백으로부터 인터랙티브하게 학습하는 능력이 크게 향상된다는 것을 입증합니다. 특히, 더 작은 모델의 다중 턴 성능이 크기가 수십 배 더 큰 모델에 거의 근접합니다. 또한, 강력한 일반화 성능을 관찰했습니다. 수학 문제에 대한 인터랙티브 훈련이 코딩, 퍼즐, 미로 탐색 등 다양한 영역으로 이전됩니다. 우리의 질적 분석에 따르면, 이러한 개선은 컨텍스트 내의 적응성이 향상되었기 때문입니다. 마지막으로, 이 패러다임이 자기 개선을 위한 통합적인 방법을 제공한다는 것을 보여줍니다. 모델이 교사의 비판을 예측하도록 훈련하여 피드백 환경을 모델링함으로써, 외부 신호를 내부 역량으로 변환하여 모델이 교사 없이도 스스로 수정할 수 있도록 합니다.
Adapting one's thought process based on corrective feedback is an essential ability in human learning, particularly in collaborative settings. In contrast, the current large language model training paradigm relies heavily on modeling vast, static corpora. While effective for knowledge acquisition, it overlooks the interactive feedback loops essential for models to adapt dynamically to their context. In this work, we propose a framework that treats this interactive in-context learning ability not as an emergent property, but as a distinct, trainable skill. We introduce a scalable method that transforms single-turn verifiable tasks into multi-turn didactic interactions driven by information asymmetry. We first show that current flagship models struggle to integrate corrective feedback on hard reasoning tasks. We then demonstrate that models trained with our approach dramatically improve the ability to interactively learn from language feedback. More specifically, the multi-turn performance of a smaller model nearly reaches that of a model an order of magnitude larger. We also observe robust out-of-distribution generalization: interactive training on math problems transfers to diverse domains like coding, puzzles and maze navigation. Our qualitative analysis suggests that this improvement is due to an enhanced in-context plasticity. Finally, we show that this paradigm offers a unified path to self-improvement. By training the model to predict the teacher's critiques, effectively modeling the feedback environment, we convert this external signal into an internal capability, allowing the model to self-correct even without a teacher.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.