2604.24668v1 Apr 27, 2026 cs.AI

합의의 대가: 에이전트 기반 금융 응용 분야에서 LLM의 아첨 현상 측정

The Price of Agreement: Measuring LLM Sycophancy in Agentic Financial Applications

D. Bikel
D. Bikel
Citations: 20,646
h-index: 20
Zhenyu Zhao
Zhenyu Zhao
Citations: 13
h-index: 2
Aparna Balagopalan
Aparna Balagopalan
Citations: 804
h-index: 14
Aditya Agrawal
Aditya Agrawal
Citations: 2
h-index: 1
Dilshoda Yergasheva
Dilshoda Yergasheva
Citations: 2
h-index: 1
Waseem Alshikh
Waseem Alshikh
Citations: 217
h-index: 6

최근 금융 시스템에서 LLM의 활용이 증가함에 따라, 이러한 시스템의 안전성과 견고성을 평가하는 것이 중요해졌습니다. LLM이 일반적인 환경에서 자주 나타내는 문제점 중 하나는 '아첨' 현상입니다. 즉, 모델이 사용자의 의견에 동조하는 것을 정확성을 우선시하는 것보다 중요하게 여기어 정확도가 떨어지고 신뢰성이 저하되는 현상입니다. 본 연구에서는 LLM이 에이전트 기반 금융 작업에서 나타내는 아첨 현상을 평가합니다. 연구 결과는 세 가지로 나뉩니다. 첫째, 모델들이 사용자의 반박이나 참고 답변과의 모순에 직면했을 때 성능이 크게 저하되지 않는다는 것을 확인했습니다. 이는 금융 에이전트 환경에서 모델이 보이는 아첨 현상이 기존 연구 결과와 차이를 보인다는 것을 의미합니다. 둘째, 참고 답변과 상반되는 사용자 선호 정보를 활용하여 아첨 현상을 평가하는 일련의 작업을 설계했으며, 대부분의 모델이 그러한 입력이 주어질 때 실패한다는 것을 확인했습니다. 셋째, 사전 훈련된 LLM을 사용한 입력 필터링과 같은 다양한 복구 방법을 비교 분석했습니다.

Original Abstract

Given the increased use of LLMs in financial systems today, it becomes important to evaluate the safety and robustness of such systems. One failure mode that LLMs frequently display in general domain settings is that of sycophancy. That is, models prioritize agreement with expressed user beliefs over correctness, leading to decreased accuracy and trust. In this work, we focus on evaluating sycophancy that LLMs display in agentic financial tasks. Our findings are three-fold: first, we find the models show only low to modest drops in performance in the face of user rebuttals or contradictions to the reference answer, which distinguishes sycophancy that models display in financial agentic settings from findings in prior work. Second, we introduce a suite of tasks to test for sycophancy by user preference information that contradicts the reference answer and find that most models fail in the presence of such inputs. Lastly, we benchmark different modes of recovery such as input filtering with a pretrained LLM.

2 Citations
0 Influential
10 Altmetric
52.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!