2603.29025v1 Mar 30, 2026 cs.CL

모델이 '진행'이라고 말할 때: 표면적 휴리스틱이 LLM 추론에서의 내재적 제약을 어떻게 극복하는가

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

R. Padman
R. Padman
Citations: 156
h-index: 3
Yubo Li
Yubo Li
Citations: 119
h-index: 4
Ramayya Krishnan
Ramayya Krishnan
Citations: 8
h-index: 1
Lu Zhang
Lu Zhang
Citations: 5
h-index: 1
Tianchong Jiang
Tianchong Jiang
Citations: 69
h-index: 4

대규모 언어 모델(LLM)은 중요한 표면적 단서가 명시되지 않은 실현 가능성 제약과 충돌할 때 일관되게 실패합니다. 우리는 진단-측정-연결-치료 프레임워크를 통해 이를 연구합니다. 6개의 모델에 대한 '세차 문제'의 인과적-행동적 분석 결과, 맥락에 거의 독립적인 시그모이드 형태의 휴리스틱이 나타났습니다. 거리 단서는 목표보다 8.7배에서 38배 더 큰 영향을 미치며, 토큰 수준의 기여도 분석 결과는 키워드 연관성과 더 일치하는 패턴을 보이며, 구성적 추론과는 일치하지 않습니다. 휴리스틱 오버라이드 벤치마크(HOB)는 4가지 휴리스틱과 5가지 제약 유형을 포괄하는 500개의 예제(최소 쌍 및 명시성 변화 포함)로 구성되어 있으며, 14개의 모델에서 일반성을 보여줍니다. 엄격한 평가(10/10 정확) 하에서는, 어떤 모델도 75%를 넘지 못했으며, 존재 제약이 가장 어렵습니다(정확도 44%). 최소한의 힌트(예: 핵심 객체 강조)는 평균적으로 +15%의 성능 향상을 가져왔으며, 이는 실패가 지식 부족이 아닌 제약 추론에 있다는 것을 시사합니다. 14개의 모델 중 12개는 제약 조건이 제거될 때 성능이 저하되었습니다(최대 -39% 감소), 이는 보수적인 편향을 드러냅니다. 파라미터 탐색 결과, 시그모이드 패턴이 비용, 효율성 및 의미적 유사성 휴리스틱에도 일반화되는 것을 확인했습니다. 목표 분해 프롬프트는 모델이 답변하기 전에 전제 조건을 나열하도록 강제하여 평균적으로 +6에서 +9%의 성능 향상을 가져왔습니다. 종합적으로, 이러한 결과는 휴리스틱 오버라이드를 체계적인 추론 취약점으로 규정하고, 이를 해결하기 위한 발전 상황을 측정하는 벤치마크를 제공합니다.

Original Abstract

Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!