빠르게 생각하는 것, 틀리게 생각하는 것: 직관성이 LLM의 반사실 추론 능력이 정책 평가에 미치는 영향
Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation
대규모 언어 모델(LLM)은 점점 더 인과적 추론 및 반사실 추론에 활용되고 있지만, 실제 정책 평가에서의 신뢰성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 경제학 및 사회과학 분야에서 발췌한 40개의 경험적 정책 평가 사례를 기반으로 벤치마크를 구축했습니다. 각 사례는 동료 검토를 거친 증거에 기반하며, 경험적 결과가 일반적인 사전 기대를 따르는지 (명확함), 상대적으로 불분명한지 (모호함), 또는 모순되는지 (직관에 반함)에 따라 직관성으로 분류됩니다. 본 연구에서는 2,400개의 실험을 통해 4개의 최첨단 LLM을 5가지 프롬프트 전략으로 평가하고, 혼합 효과 로지스틱 회귀 분석을 통해 결과를 분석했습니다. 연구 결과는 다음과 같은 세 가지 주요 결과를 보여줍니다. (1) '사고 과정(Chain-of-Thought)' 프롬프트는 명확한 사례에서는 성능을 크게 향상시키지만, 직관에 반하는 사례에서는 이러한 이점이 거의 사라지는 '사고 과정'의 역설 현상이 나타납니다 (상호 작용 OR = 0.053, $p < 0.001$); (2) 직관성이 모델 선택 또는 프롬프트 전략보다 더 큰 변동성을 설명하는 지배적인 요인임을 알 수 있습니다 (ICC = 0.537); (3) 인용 기반의 정보 습득 정도가 정확성과 무관하다는 점을 보여주는 지식-추론의 분리 현상이 나타납니다 ($p = 0.53$), 이는 모델이 관련 지식을 보유하고 있지만, 결과가 직관에 반할 때 이를 활용하여 추론하지 못한다는 것을 시사합니다. 본 연구는 이러한 결과를 이중 과정 이론(System 1 vs. System 2)의 관점에서 해석하고, 현재 LLM의 '느린 사고'는 실제로는 '느린 말하기'에 불과하다고 주장합니다. 즉, LLM은 숙고적인 추론의 형식을 갖추고 있지만, 그 실질적인 내용은 부족합니다.
Large language models (LLMs) are increasingly used for causal and counterfactual reasoning, yet their reliability in real-world policy evaluation remains underexplored. We construct a benchmark of 40 empirical policy evaluation cases drawn from economics and social science, each grounded in peer-reviewed evidence and classified by intuitiveness -- whether the empirical finding aligns with (obvious), is unclear relative to (ambiguous), or contradicts (counter-intuitive) common prior expectations. We evaluate four frontier LLMs across five prompting strategies with 2,400 experimental trials and analyze the results using mixed-effects logistic regression. Our findings reveal three key results: (1) a chain-of-thought (CoT) paradox, where chain-of-thought prompting dramatically improves performance on obvious cases but this benefit is nearly eliminated on counter-intuitive ones (interaction OR = 0.053, $p < 0.001$); (2) intuitiveness as the dominant factor, explaining more variance than model choice or prompting strategy (ICC = 0.537); and (3) a knowledge-reasoning dissociation, where citation-based familiarity is unrelated to accuracy ($p = 0.53$), suggesting models possess relevant knowledge but fail to reason with it when findings contradict intuition. We frame these results through the lens of dual-process theory (System 1 vs. System 2) and argue that current LLMs' "slow thinking" may be little more than "slow talking" -- they produce the form of deliberative reasoning without the substance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.