인식적 문맥 학습: LLM 기반 다중 에이전트 시스템에서 올바른 방식으로 신뢰 구축하기
Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems
다중 에이전트(MA) 시스템의 개별 에이전트들은 종종 견고성이 부족하여, 잘못된 정보를 제공하는 동료들에게 맹목적으로 순응하는 경향이 있다. 본 연구에서는 이러한 약점이 아부성 성향(sycophancy)과 동료의 신뢰성을 평가하는 능력의 부족에서 기인함을 보여준다. 이를 해결하기 위해, 우리는 먼저 동료의 과거 상호작용을 추가 입력으로 도입하여 '이력 인식 참조(history-aware reference)' 학습 문제를 정식화한다. 이를 통해 에이전트는 동료의 신뢰도를 추정하고 불확실할 때 신뢰할 수 있는 동료로부터 학습할 수 있다. 이는 과업의 초점을 동료의 추론 품질을 평가하는 것에서 상호작용 이력을 바탕으로 동료의 신뢰도를 추정하는 것으로 전환시킨다. 그 후 우리는 이력을 통해 명시적으로 구축된 동료 프로필을 조건부로 예측을 수행하는 추론 프레임워크인 '인식적 문맥 학습(Epistemic Context Learning, ECL)'을 개발한다. 또한 보조 보상을 활용한 강화 학습을 통해 ECL을 더욱 최적화한다. 실험 결과, ECL은 신뢰할 수 있는 동료를 정확하게 식별함으로써 Qwen 3-4B와 같은 소형 모델이 이력을 고려하지 않는 8배 크기의 베이스라인 모델(Qwen 3-30B)보다 뛰어난 성능을 발휘하도록 하는 것으로 나타났다. 또한 ECL은 최첨단 모델들의 성능을 거의 완벽한 수준(100%)으로 향상시킨다. 우리는 ECL이 다양한 MA 구성에 잘 일반화됨을 보였으며, LLM이 신뢰를 잘 모델링한다는 점을 발견하였는데, 이는 신뢰 모델링 정확도와 최종 답변 품질 사이에 강력한 상관관계가 있음을 시사한다.
Individual agents in multi-agent (MA) systems often lack robustness, tending to blindly conform to misleading peers. We show this weakness stems from both sycophancy and inadequate ability to evaluate peer reliability. To address this, we first formalize the learning problem of history-aware reference, introducing the historical interactions of peers as additional input, so that agents can estimate peer reliability and learn from trustworthy peers when uncertain. This shifts the task from evaluating peer reasoning quality to estimating peer reliability based on interaction history. We then develop Epistemic Context Learning (ECL): a reasoning framework that conditions predictions on explicitly-built peer profiles from history. We further optimize ECL by reinforcement learning using auxiliary rewards. Our experiments reveal that our ECL enables small models like Qwen 3-4B to outperform a history-agnostic baseline 8x its size (Qwen 3-30B) by accurately identifying reliable peers. ECL also boosts frontier models to near-perfect (100%) performance. We show that ECL generalizes well to various MA configurations and we find that trust is modeled well by LLMs, revealing a strong correlation in trust modeling accuracy and final answer quality.
AI Analysis
Korean Summary
Key Innovations
- 과거 상호작용 데이터를 기반으로 동료의 신뢰도를 추정하는 '이력 인식 참조(History-Aware Reference)' 패러다임 정립
- 신뢰도 추정(1단계)과 정보 통합 및 최종 추론(2단계)을 명시적으로 분리한 ECL 프레임워크
- 신뢰할 수 있는 동료 식별을 강화하기 위한 보조적 감독 신호인 '동료 인식 보상(Peer Recognition Reward, PRR)' 도입
- 모델의 역사적 신뢰 활용 능력과 인식론적 자율성을 평가하기 위한 진단 분석 설정(Flipping Identity, All Wrong)
Learning & Inference Impact
학습 과정에서 이 방법론은 단순히 최종 답변의 정답 여부(Outcome Reward)뿐만 아니라, 중간 단계에서 '누가 신뢰할 수 있는가'를 정확히 식별했는지에 대한 보상(PRR)을 함께 사용하여 모델이 피상적인 단서가 아닌 실제 이력에 기반한 추론을 하도록 강제합니다. 이는 모델이 지름길 학습(Shortcut Learning)을 피하고 진정한 신뢰 모델링 능력을 갖추게 합니다. 추론 과정에서는 모델이 즉각적인 답변 생성 전에 반드시 과거 이력을 요약하고 신뢰 프로필을 생성하는 병목(Bottleneck) 과정을 거치게 하여, 현재 문맥에서 발생할 수 있는 기만적이거나 설득력 있는 환각(Hallucination) 정보에 휘둘리지 않고, 검증된 동료의 정보를 우선시하는 조건부 생성을 수행하도록 추론 흐름을 변경합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.