2604.10511v1 Apr 12, 2026 cs.AI

빠르게 생각하는 것, 틀리게 생각하는 것: 직관성이 LLM의 반사실 추론 능력이 정책 평가에 미치는 영향

Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation

Yanji He
Yanji He
Citations: 6
h-index: 1

대규모 언어 모델(LLM)은 점점 더 인과적 추론 및 반사실 추론에 활용되고 있지만, 실제 정책 평가에서의 신뢰성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 경제학 및 사회과학 분야에서 발췌한 40개의 경험적 정책 평가 사례를 기반으로 벤치마크를 구축했습니다. 각 사례는 동료 검토를 거친 증거에 기반하며, 경험적 결과가 일반적인 사전 기대를 따르는지 (명확함), 상대적으로 불분명한지 (모호함), 또는 모순되는지 (직관에 반함)에 따라 직관성으로 분류됩니다. 본 연구에서는 2,400개의 실험을 통해 4개의 최첨단 LLM을 5가지 프롬프트 전략으로 평가하고, 혼합 효과 로지스틱 회귀 분석을 통해 결과를 분석했습니다. 연구 결과는 다음과 같은 세 가지 주요 결과를 보여줍니다. (1) '사고 과정(Chain-of-Thought)' 프롬프트는 명확한 사례에서는 성능을 크게 향상시키지만, 직관에 반하는 사례에서는 이러한 이점이 거의 사라지는 '사고 과정'의 역설 현상이 나타납니다 (상호 작용 OR = 0.053, $p < 0.001$); (2) 직관성이 모델 선택 또는 프롬프트 전략보다 더 큰 변동성을 설명하는 지배적인 요인임을 알 수 있습니다 (ICC = 0.537); (3) 인용 기반의 정보 습득 정도가 정확성과 무관하다는 점을 보여주는 지식-추론의 분리 현상이 나타납니다 ($p = 0.53$), 이는 모델이 관련 지식을 보유하고 있지만, 결과가 직관에 반할 때 이를 활용하여 추론하지 못한다는 것을 시사합니다. 본 연구는 이러한 결과를 이중 과정 이론(System 1 vs. System 2)의 관점에서 해석하고, 현재 LLM의 '느린 사고'는 실제로는 '느린 말하기'에 불과하다고 주장합니다. 즉, LLM은 숙고적인 추론의 형식을 갖추고 있지만, 그 실질적인 내용은 부족합니다.

Original Abstract

Large language models (LLMs) are increasingly used for causal and counterfactual reasoning, yet their reliability in real-world policy evaluation remains underexplored. We construct a benchmark of 40 empirical policy evaluation cases drawn from economics and social science, each grounded in peer-reviewed evidence and classified by intuitiveness -- whether the empirical finding aligns with (obvious), is unclear relative to (ambiguous), or contradicts (counter-intuitive) common prior expectations. We evaluate four frontier LLMs across five prompting strategies with 2,400 experimental trials and analyze the results using mixed-effects logistic regression. Our findings reveal three key results: (1) a chain-of-thought (CoT) paradox, where chain-of-thought prompting dramatically improves performance on obvious cases but this benefit is nearly eliminated on counter-intuitive ones (interaction OR = 0.053, $p < 0.001$); (2) intuitiveness as the dominant factor, explaining more variance than model choice or prompting strategy (ICC = 0.537); and (3) a knowledge-reasoning dissociation, where citation-based familiarity is unrelated to accuracy ($p = 0.53$), suggesting models possess relevant knowledge but fail to reason with it when findings contradict intuition. We frame these results through the lens of dual-process theory (System 1 vs. System 2) and argue that current LLMs' "slow thinking" may be little more than "slow talking" -- they produce the form of deliberative reasoning without the substance.

0 Citations
0 Influential
0.5 Altmetric
2.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!