DeltaLogic: 최소한의 전제 수정이 논리 추론 모델의 믿음 수정 실패를 드러낸다
DeltaLogic: Minimal Premise Edits Reveal Belief-Revision Failures in Logical Reasoning Models
기존의 추론 벤치마크는 모델이 고정된 전제 집합에서 올바른 답변을 도출하는지 평가하는 데 중점을 두지만, 동적인 환경에서 중요한 또 다른 능력인 '최소한의 증거 변화 하에서의 믿음 수정'은 충분히 측정하지 못합니다. 본 논문에서는 자연어 추론 예제를 짧은 수정 에피소드로 변환하는 벤치마크 변환 프로토콜인 DeltaLogic을 소개합니다. 각 에피소드는 먼저 전제 P에 대한 초기 결론을 요청하고, 최소한의 수정 δ(P)을 적용한 다음, 이전 결론이 안정적으로 유지되어야 하는지 또는 수정되어야 하는지를 묻습니다. DeltaLogic은 FOLIO 및 ProofWriter를 기반으로 구현되었으며, 제한된 레이블 점수를 사용한 소규모 인과 언어 모델을 평가합니다. 30개의 Qwen 평가 하위 집합에서, 초기 추론 능력이 더 뛰어나다고 해서 수정 능력 또한 더 뛰어나다고 할 수 없습니다. Qwen3-1.7B는 0.667의 초기 정확도를 보이지만, 수정 정확도는 0.467에 불과하며, 올바르게 수정되어야 하는 에피소드에서 관성이 0.600까지 증가합니다. 반면, Qwen3-0.6B는 거의 모든 경우 회피하는 경향을 보입니다. Qwen3-4B는 동일한 관성 실패 패턴(0.650 초기, 0.450 수정, 0.600 관성)을 유지하는 반면, Phi-4-mini-instruct는 훨씬 강력한 성능(0.950 초기, 0.850 수정)을 보이지만 여전히 상당한 수준의 회피 및 제어 불안정성을 나타냅니다. 이러한 결과는 고정된 전제 하에서의 논리적 능력이 국소적인 증거 수정 후의 체계적인 믿음 수정을 보장하지 않는다는 것을 시사합니다. 따라서 DeltaLogic은 기존의 논리적 추론 및 믿음 업데이트 벤치마크를 보완하는, 뚜렷하고 실질적으로 중요한 추론 능력을 평가합니다.
Reasoning benchmarks typically evaluate whether a model derives the correct answer from a fixed premise set, but they under-measure a closely related capability that matters in dynamic environments: belief revision under minimal evidence change. We introduce DeltaLogic, a benchmark transformation protocol that converts natural-language reasoning examples into short revision episodes. Each episode first asks for an initial conclusion under premises P, then applies a minimal edit δ(P), and finally asks whether the previous conclusion should remain stable or be revised. We instantiate DeltaLogic from FOLIO and ProofWriter and evaluate small causal language models with constrained label scoring. On a completed 30-episode Qwen evaluation subset, stronger initial reasoning still does not imply stronger revision behavior: Qwen3-1.7B reaches 0.667 initial accuracy but only 0.467 revision accuracy, with inertia rising to 0.600 on episodes where the gold label should change, while Qwen3-0.6B collapses into near universal abstention. There, Qwen3-4B preserves the same inertial failure pattern (0.650 initial, 0.450 revised, 0.600 inertia), whereas Phi-4-mini-instruct is substantially stronger (0.950 initial, 0.850 revised) but still exhibits non-trivial abstention and control instability. These results suggest that logical competence under fixed premises does not imply disciplined belief revision after local evidence edits. DeltaLogic therefore targets a distinct and practically important reasoning capability that complements existing logical inference and belief-updating benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.