지나치게 예의 바르다: 다중 에이전트 시스템에서 아첨 현상 확산 이해
Too Polite to Disagree: Understanding Sycophancy Propagation in Multi-Agent Systems
대규모 언어 모델(LLM)은 종종 아첨 현상을 보입니다. 이는 사용자의 의견과 일치하도록 응답하는 경향을 의미하며, 모델 자체의 의견과 충돌하는 경우에도 이를 따르는 것입니다. 기존 연구에서는 주로 단일 에이전트 환경에서 이러한 현상을 연구했지만, 협업적인 다중 에이전트 시스템에서는 아직 제대로 연구되지 않았습니다. 본 연구에서는 다른 에이전트의 아첨 정도에 대한 인식이 토론 결과에 어떤 영향을 미치는지 질문합니다. 이를 조사하기 위해, 우리는 여섯 개의 오픈 소스 LLM을 사용하여 통제된 실험을 수행했습니다. 각 실험에서 에이전트에게 동료 에이전트의 아첨 경향을 추정한 '아첨 순위' 정보를 제공했습니다. 이러한 순위는 다양한 정적(토론 전) 및 동적(온라인) 전략을 사용하여 계산된 점수를 기반으로 합니다. 연구 결과, 아첨에 대한 사전 정보를 제공하면 아첨이 두드러지는 에이전트의 영향력을 줄이고, 오류 연쇄를 완화하며, 최종 토론 정확도를 절대적으로 10.5% 향상시키는 것으로 나타났습니다. 따라서, 이는 토론에서의 아첨 현상을 줄이고 하위 작업의 정확성을 향상시키는 간단하고 효과적인 방법입니다.
Large language models (LLMs) often exhibit sycophancy: agreement with user stance even when it conflicts with the model's opinion. While prior work has mostly studied this in single-agent settings, it remains underexplored in collaborative multi-agent systems. We ask whether awareness of other agents' sycophancy levels influences discussion outcomes. To investigate this, we run controlled experiments with six open-source LLMs, providing agents with peer sycophancy rankings that estimate each peer's tendency toward sycophancy. These rankings are based on scores calculated using various static (pre-discussion) and dynamic (online) strategies. We find that providing sycophancy priors reduces the influence of sycophancy-prone peers, mitigates error-cascades, and improves final discussion accuracy by an absolute 10.5%. Thus, this is a lightweight, effective way to reduce discussion sycophancy and improve downstream accuracy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.