사회적 메타 학습을 이용한 언어 피드백 기반 학습
Learning to Learn from Language Feedback with Social Meta-Learning
대규모 언어 모델(LLM)은 대화 맥락 내에서 교정 피드백을 학습하는 데 어려움을 겪는 경우가 많습니다. LLM은 모호한 상황에 직면하더라도 적극적으로 이러한 피드백을 요청하는 경우가 드물기 때문에, 대화가 정적이고 일방적이며 인간 대화의 적응적 특성이 부족하게 느껴질 수 있습니다. 이러한 한계를 극복하기 위해, 우리는 인간의 사회적 메타 학습(SML)에서 영감을 얻었습니다. SML은 다른 사람들로부터 학습하는 방법을 배우는 과정입니다. 우리는 SML을 미세 조정 방법론으로 정의하고, LLM이 시뮬레이션된 교육적 대화에서 언어 피드백을 요청하고 학습하도록 훈련합니다. 여기서 정적인 작업은 상호 작용적인 사회적 학습 문제로 변환됩니다. SML은 모델이 대화를 사용하여 단일 턴으로는 해결할 수 없는 문제를 해결하는 방법을 효과적으로 가르쳐줍니다. 이러한 능력은 다양한 분야에서 일반화됩니다. 수학 문제에 대한 SML은 코딩 문제를 해결하기 위해 피드백을 더 잘 활용하는 모델을 생성하고, 반대로 코딩 문제에 대한 SML은 수학 문제를 해결하기 위해 피드백을 더 잘 활용하는 모델을 생성합니다. 또한, 완전히 정의된 문제에 대해서만 훈련되었음에도 불구하고, 이러한 모델은 중요한 정보가 여러 턴에 걸쳐 드러나는 미완성된 작업 문제를 더 잘 해결할 수 있습니다. 이러한 모호한 상황에 직면했을 때, SML로 훈련된 모델은 조기에 답을 시도하는 경우가 적고 필요한 정보를 요청할 가능성이 더 높습니다. 이 연구는 언어 피드백으로부터 효과적으로 학습하는 AI 시스템을 개발하는 확장 가능한 접근 방식을 제시합니다.
Large language models (LLMs) often struggle to learn from corrective feedback within a conversational context. They are rarely proactive in soliciting this feedback, even when faced with ambiguity, which can make their dialogues feel static, one-sided, and lacking the adaptive qualities of human conversation. To address these limitations, we draw inspiration from social meta-learning (SML) in humans - the process of learning how to learn from others. We formulate SML as a finetuning methodology, training LLMs to solicit and learn from language feedback in simulated pedagogical dialogues, where static tasks are converted into interactive social learning problems. SML effectively teaches models to use conversation to solve problems they are unable to solve in a single turn. This capability generalises across domains; SML on math problems produces models that better use feedback to solve coding problems and vice versa. Furthermore, despite being trained only on fully-specified problems, these models are better able to solve underspecified tasks where critical information is revealed over multiple turns. When faced with this ambiguity, SML-trained models make fewer premature answer attempts and are more likely to ask for the information they need. This work presents a scalable approach to developing AI systems that effectively learn from language feedback.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.