MARO: 사회적 상호작용을 통한 더 강력한 추론 학습
MARO: Learning Stronger Reasoning from Social Interaction
인간은 일상생활에서 추론과 판단이 필요한 수많은 상황에 직면한다. 그러나 기존의 대규모 언어 모델 훈련 방법은 주로 기존 텍스트 콘텐츠를 학습하거나 미리 정해진 문제를 해결하는 데 그쳐, 타인과의 상호작용, 협상, 경쟁이 포함된 실제 시나리오에서의 경험은 부족하다. 이를 해결하기 위해, 본 논문은 대규모 언어 모델(LLM)이 다중 에이전트 사회적 환경에서 학습하고 연습함으로써 더 강력한 추론 능력을 습득할 수 있게 하는 방법인 다중 에이전트 보상 최적화(MARO)를 제안한다. 구체적으로 MARO는 첫째, 최종적인 성공이나 실패 결과를 상호작용 과정의 각 구체적인 행동으로 분해하여 희소한 학습 신호 문제를 해결한다. 둘째, 서로 다른 역할의 훈련 샘플 가중치 균형을 맞춰 불균형한 역할 분포 문제를 처리한다. 마지막으로, 각 행동의 효용을 직접 평가하여 환경적 불안정성 문제를 해결한다. 실험 결과, MARO는 사회적 추론 능력에서 상당한 향상을 이루었을 뿐만 아니라, 사회적 시뮬레이션 학습을 통해 습득한 능력이 수학적 추론 및 지시 따르기와 같은 다른 작업으로도 효과적으로 전이될 수 있음을 보여준다. 이는 LLM의 일반적인 추론 능력을 향상시키는 데 있어 다중 에이전트 사회적 학습이 가진 막대한 잠재력을 시사한다.
Humans face countless scenarios that require reasoning and judgment in daily life. However, existing large language model training methods primarily allow models to learn from existing textual content or solve predetermined problems, lacking experience in real scenarios involving interaction, negotiation, and competition with others. To address this, this paper proposes Multi-Agent Reward Optimization (MARO), a method that enables large language models (LLMs) to acquire stronger reasoning abilities by learning and practicing in multi-agent social environments. Specifically, MARO first addresses the sparse learning signal problem by decomposing final success or failure outcomes into each specific behavior during the interaction process; second, it handles the uneven role distribution problem by balancing the training sample weights of different roles; finally, it addresses environmental instability issues by directly evaluating the utility of each behavior. Experimental results demonstrate that MARO not only achieves significant improvements in social reasoning capabilities, but also that the abilities acquired through social simulation learning can effectively transfer to other tasks such as mathematical reasoning and instruction following. This reveals the tremendous potential of multi-agent social learning in enhancing the general reasoning capabilities of LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.