추론형 LLM은 생각의 사슬(CoT) 개입에 강건한가?
Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?
추론형 LLM(RLLM)은 답변을 제시하기 전에 단계별 생각의 사슬(CoT)을 생성하여, 복잡한 과제에서의 성능을 높이고 추론 과정을 더 투명하게 만듭니다. 그러나 이러한 추론 흔적 내부에서 발생하는 교란에 대해 모델은 얼마나 강건할까요? 이 질문에 답하기 위해, 우리는 고정된 시점에서 모델의 CoT에 변형을 가하는 통제된 평가 프레임워크를 도입합니다. 우리는 7가지 개입(무해함, 중립적, 적대적)을 설계하여 수학, 과학, 논리 과제에 걸쳐 여러 오픈 웨이트 RLLM에 적용했습니다. 연구 결과, RLLM은 전반적으로 강건하여 다양한 변형으로부터 안정적으로 회복했으며, 모델 크기가 클수록 강건성이 향상되고 개입이 초기에 발생할수록 강건성이 낮아지는 것으로 나타났습니다. 하지만 강건성이 스타일에 관계없이 일정한 것은 아닙니다. 의역(paraphrasing)은 의구심을 나타내는 표현을 억제하여 성능을 저하시키는 반면, 다른 개입들은 의구심을 유발하여 회복을 돕습니다. 또한 회복에는 비용이 따릅니다. 중립적 및 적대적 노이즈는 CoT 길이를 200% 이상 증가시킬 수 있는 반면, 의역은 길이를 줄이지만 정확도를 해칩니다. 이러한 연구 결과는 RLLM이 추론 무결성을 유지하는 방식에 대한 새로운 증거를 제공하고, 의구심을 핵심 회복 메커니즘으로 규명하며, 향후 훈련 방법론에서 다루어야 할 강건성과 효율성 간의 상충 관계를 강조합니다.
Reasoning LLMs (RLLMs) generate step-by-step chains of thought (CoTs) before giving an answer, which improves performance on complex tasks and makes reasoning more transparent. But how robust are these reasoning traces to disruptions that occur within them? To address this question, we introduce a controlled evaluation framework that perturbs a model's own CoT at fixed timesteps. We design seven interventions (benign, neutral, and adversarial) and apply them to multiple open-weight RLLMs across Math, Science, and Logic tasks. Our results show that RLLMs are generally robust, reliably recovering from diverse perturbations, with robustness improving with model size and degrading when interventions occur early. However, robustness is not style-invariant: paraphrasing suppresses doubt-like expressions and reduces performance, while other interventions trigger doubt and support recovery. Recovery also carries a cost: neutral and adversarial noise can inflate CoT length by more than 200%, whereas paraphrasing shortens traces but harms accuracy. These findings provide new evidence on how RLLMs maintain reasoning integrity, identify doubt as a central recovery mechanism, and highlight trade-offs between robustness and efficiency that future training methods should address.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.