모델이 '진행'이라고 말할 때: 표면적 휴리스틱이 LLM 추론에서의 내재적 제약을 어떻게 극복하는가
The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning
대규모 언어 모델(LLM)은 중요한 표면적 단서가 명시되지 않은 실현 가능성 제약과 충돌할 때 일관되게 실패합니다. 우리는 진단-측정-연결-치료 프레임워크를 통해 이를 연구합니다. 6개의 모델에 대한 '세차 문제'의 인과적-행동적 분석 결과, 맥락에 거의 독립적인 시그모이드 형태의 휴리스틱이 나타났습니다. 거리 단서는 목표보다 8.7배에서 38배 더 큰 영향을 미치며, 토큰 수준의 기여도 분석 결과는 키워드 연관성과 더 일치하는 패턴을 보이며, 구성적 추론과는 일치하지 않습니다. 휴리스틱 오버라이드 벤치마크(HOB)는 4가지 휴리스틱과 5가지 제약 유형을 포괄하는 500개의 예제(최소 쌍 및 명시성 변화 포함)로 구성되어 있으며, 14개의 모델에서 일반성을 보여줍니다. 엄격한 평가(10/10 정확) 하에서는, 어떤 모델도 75%를 넘지 못했으며, 존재 제약이 가장 어렵습니다(정확도 44%). 최소한의 힌트(예: 핵심 객체 강조)는 평균적으로 +15%의 성능 향상을 가져왔으며, 이는 실패가 지식 부족이 아닌 제약 추론에 있다는 것을 시사합니다. 14개의 모델 중 12개는 제약 조건이 제거될 때 성능이 저하되었습니다(최대 -39% 감소), 이는 보수적인 편향을 드러냅니다. 파라미터 탐색 결과, 시그모이드 패턴이 비용, 효율성 및 의미적 유사성 휴리스틱에도 일반화되는 것을 확인했습니다. 목표 분해 프롬프트는 모델이 답변하기 전에 전제 조건을 나열하도록 강제하여 평균적으로 +6에서 +9%의 성능 향상을 가져왔습니다. 종합적으로, 이러한 결과는 휴리스틱 오버라이드를 체계적인 추론 취약점으로 규정하고, 이를 해결하기 위한 발전 상황을 측정하는 벤치마크를 제공합니다.
Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.