합리성의 불꽃: 추론 LLM이 인간의 판단과 선택에 부합하는가?
Sparks of Rationality: Do Reasoning LLMs Align with Human Judgment and Choice?
대규모 언어 모델(LLM)은 채용, 의료 및 경제적 판단을 위한 의사 결정 엔진으로 점점 더 많이 활용되고 있지만, 실제 인간의 판단은 합리적인 숙고와 감정 기반의 편향 사이의 균형을 반영합니다. LLM이 중요한 의사 결정에 참여하거나 인간 행동의 모델 역할을 수행하려면, LLM이 유사한 (비)합리성과 편향 패턴을 보이는지 평가하는 것이 중요합니다. 이에, 본 연구에서는 여러 LLM 패밀리에 대해 (i) 합리적 선택의 핵심 공리성을 테스트하는 벤치마크와 (ii) 감정이 판단과 선택에 영향을 미치는 것으로 알려진 행동 경제학 및 사회 규범의 고전적인 의사 결정 영역을 평가합니다. 다양한 환경에서, 의도적인 '사고'는 합리성을 향상시키고 모델을 기대 가치 극대화 방향으로 이끄는 것을 확인했습니다. 인간과 유사한 감정적 왜곡과 그 상호 작용을 조사하기 위해, 우리는 두 가지 감정 조작 방법을 사용합니다: 문맥 내 프라이밍(ICP)과 표현 수준 조작(RLS). ICP는 종종 극단적이고 교정하기 어려운 강력한 방향성 변화를 유발하는 반면, RLS는 심리적으로 더 타당한 패턴을 생성하지만 신뢰성이 낮습니다. 우리의 결과는 합리성을 향상시키는 메커니즘이 감정적 개입에 대한 민감도를 증폭시키기도 하며, 서로 다른 조작 방법은 제어 가능성과 인간에 부합하는 행동 사이에서 상충 관계를 갖는다는 것을 시사합니다. 전반적으로, 이는 인간 시뮬레이션과 LLM 기반 의사 결정 시스템의 안전한 배포에 영향을 미치는 합리성과 감정적 조작 간의 긴장을 보여줍니다.
Large Language Models (LLMs) are increasingly positioned as decision engines for hiring, healthcare, and economic judgment, yet real-world human judgment reflects a balance between rational deliberation and emotion-driven bias. If LLMs are to participate in high-stakes decisions or serve as models of human behavior, it is critical to assess whether they exhibit analogous patterns of (ir)rationalities and biases. To this end, we evaluate multiple LLM families on (i) benchmarks testing core axioms of rational choice and (ii) classic decision domains from behavioral economics and social norms where emotions are known to shape judgment and choice. Across settings, we show that deliberate "thinking" reliably improves rationality and pushes models toward expected-value maximization. To probe human-like affective distortions and their interaction with reasoning, we use two emotion-steering methods: in-context priming (ICP) and representation-level steering (RLS). ICP induces strong directional shifts that are often extreme and difficult to calibrate, whereas RLS produces more psychologically plausible patterns but with lower reliability. Our results suggest that the same mechanisms that improve rationality also amplify sensitivity to affective interventions, and that different steering methods trade off controllability against human-aligned behavior. Overall, this points to a tension between reasoning and affective steering, with implications for both human simulation and the safe deployment of LLM-based decision systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.