2601.18352v2 Jan 26, 2026 cs.CL

코드 중심 접근: 코드 기반 추론을 통한 의미적 관성 극복

Code over Words: Overcoming Semantic Inertia via Code-Grounded Reasoning

Yixin Zhu
Yixin Zhu
Citations: 598
h-index: 13
Manjie Xu
Manjie Xu
Citations: 258
h-index: 6
Isabella Yin
Isabella Yin
Citations: 0
h-index: 0
Xinyi Tu
Xinyi Tu
Citations: 7
h-index: 1
Chi Zhang
Chi Zhang
Citations: 1
h-index: 1

대규모 언어 모델(LLM)은 의미적 관성이라는 문제에 직면합니다. 이는 사전 학습된 지식(예: "용암은 위험하다")을 억제하지 못하고, 동적인 상황 맥락의 규칙과 충돌하는 경우에도 이러한 지식을 고수하는 현상을 의미합니다. 본 연구에서는 Baba Is You 게임을 활용하여 이러한 현상을 분석합니다. 이 게임에서는 물리 법칙이 변경 가능한 텍스트 규칙으로 표현되므로, 모델이 학습된 지식을 얼마나 효과적으로 변경할 수 있는지 정확하게 평가할 수 있습니다. 우리는 대규모 모델이 자연어 추론을 수행할 때, 특히 사전 학습된 연관성을 억제해야 하는 경우(예: "용암은 안전하다"를 수용하는 경우) 작은 모델보다 성능이 저하되는 역규모 현상을 관찰했습니다. 이러한 현상은 자연어 인코딩 방식 때문이라고 분석됩니다. 자연어 인코딩은 서술적 의미와 논리적 규칙을 혼합하여 표현하기 때문에, 명시적인 모순 규칙이 존재하더라도 익숙한 물리 법칙에 대한 환각 현상이 지속적으로 발생합니다. 본 연구에서는 동적인 내용을 실행 가능한 코드로 표현함으로써 이러한 문제를 해결하고 사전 지식 억제를 가능하게 합니다. 우리는 Code-Grounded Vistas (LCV)라는 새로운 방법을 제안합니다. LCV는 모델을 반사실적 쌍(counterfactual pairs)으로 미세 조정하고, 모순되는 규칙을 가진 상태를 식별하여, 시각적 의미 대신 논리적 제약에 집중하도록 합니다. 이러한 훈련 방식은 추론 시간의 복잡한 탐색 방법보다 효율성과 정확성 모두에서 우수한 성능을 보입니다. 본 연구 결과는 표현 방식이 문맥 추론 능력 향상에 미치는 근본적인 영향을 보여줍니다. 이는 더 큰 모델이 항상 더 나은 성능을 보인다는 가정에 도전하며, 사전 학습된 지식을 동적으로 변경해야 하는 다양한 분야에 시사점을 제공합니다.

Original Abstract

LLMs struggle with Semantic Inertia: the inability to inhibit pre-trained priors (e.g., "Lava is Dangerous") when dynamic, in-context rules contradict them. We probe this phenomenon using Baba Is You, where physical laws are mutable text rules, enabling precise evaluation of models' ability to override learned priors when rules change. We quantatively observe that larger models can exhibit inverse scaling: they perform worse than smaller models when natural language reasoning requires suppressing pre-trained associations (e.g., accepting "Lava is Safe"). Our analysis attributes this to natural language encoding, which entangles descriptive semantics and logical rules, leading to persistent hallucinations of familiar physics despite explicit contradictory rules. Here we show that representing dynamics as executable code, rather than descriptive text, reverses this trend and enables effective prior inhibition. We introduce Code-Grounded Vistas (LCV), which fine-tunes models on counterfactual pairs and identifies states with contradictory rules, thereby forcing attention to logical constraints rather than visual semantics. This training-time approach outperforms expensive inference-time search methods in both efficiency and accuracy. Our results demonstrate that representation fundamentally determines whether scaling improves or impairs contextual reasoning. This challenges the assumption that larger models are universally better, with implications for domains that require dynamic overriding of learned priors.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!