2604.18982v1 Apr 21, 2026 cs.AI

SAVOIR: 셰플리 값을 이용한 사회적 예의 학습을 통한 보상 할당

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Yilei Jiang
Yilei Jiang
Citations: 147
h-index: 7
Lei Huang
Lei Huang
Citations: 2,833
h-index: 9
Weitao Ma
Weitao Ma
Citations: 2,815
h-index: 9
Xiaocheng Feng
Xiaocheng Feng
Citations: 10,016
h-index: 30
Bing Qin
Bing Qin
Citations: 3,025
h-index: 12
Xiachong Feng
Xiachong Feng
Citations: 788
h-index: 13
Chonghan Qin
Chonghan Qin
Citations: 20
h-index: 3
Lingpeng Kong
Lingpeng Kong
Citations: 290
h-index: 7
Deyi Yin
Deyi Yin
Citations: 0
h-index: 0
Libo Qin
Libo Qin
Citations: 29
h-index: 2
Yangfan Ye
Yangfan Ye
Citations: 68
h-index: 5
Yuxuan Gu
Yuxuan Gu
Harbin Institute of Technology
Citations: 224
h-index: 9

사회적 지능, 즉 복잡한 대인 관계를 헤쳐나가는 능력은 언어 에이전트에게 있어 근본적인 과제입니다. 강화 학습을 통해 이러한 에이전트를 훈련하려면, 크레딧 할당 문제를 해결해야 합니다. 즉, 개별 발화가 다중 턴 대화 결과에 어떻게 기여하는지 파악해야 합니다. 기존 접근 방식은 언어 모델을 사용하여 에피소드 수준의 보상을 분배하며, 이는 사후적인 속성 부여를 제공하며 이론적 기반이 부족합니다. 본 연구에서는 협력 게임 이론에 기반한 새로운 체계인 SAVOIR (ShApley Value fOr SocIal RL)을 제안합니다. 우리의 접근 방식은 두 가지 상호 보완적인 원리를 결합합니다. 기대 효용은 사후적인 속성 부여에서 사전적인 가치 평가로 전환하여, 발화가 긍정적인 미래 경로를 가능하게 할 수 있는 전략적 잠재력을 포착합니다. 셰플리 값은 효율성, 대칭성 및 한계성의 공리적 보장을 통해 공정한 크레딧 분배를 보장합니다. SOTOPIA 벤치마크에서의 실험 결과, SAVOIR은 모든 평가 환경에서 최고 수준의 성능을 달성했으며, 7B 모델은 GPT-4o 및 Claude-3.5-Sonnet과 같은 독점 모델과 동등하거나 그 이상의 성능을 보였습니다. 주목할 만한 점은, 크고 강력한 추론 모델조차도 일관되게 성능이 저조하다는 점이며, 이는 사회적 지능이 분석적 추론과는 질적으로 다른 능력을 요구한다는 것을 시사합니다.

Original Abstract

Social intelligence, the ability to navigate complex interpersonal interactions, presents a fundamental challenge for language agents. Training such agents via reinforcement learning requires solving the credit assignment problem: determining how individual utterances contribute to multi-turn dialogue outcomes. Existing approaches directly employ language models to distribute episode-level rewards, yielding attributions that are retrospective and lack theoretical grounding. We propose SAVOIR (ShApley Value fOr SocIal RL), a novel principled framework grounded in cooperative game theory. Our approach combines two complementary principles: expected utility shifts evaluation from retrospective attribution to prospective valuation, capturing an utterance's strategic potential for enabling favorable future trajectories; Shapley values ensure fair credit distribution with axiomatic guarantees of efficiency, symmetry, and marginality. Experiments on the SOTOPIA benchmark demonstrate that SAVOIR achieves new state-of-the-art performance across all evaluation settings, with our 7B model matching or exceeding proprietary models including GPT-4o and Claude-3.5-Sonnet. Notably, even large reasoning models consistently underperform, suggesting social intelligence requires qualitatively different capabilities than analytical reasoning.

0 Citations
0 Influential
15 Altmetric
75.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!