2602.13093v1 Feb 13, 2026 cs.AI

다중 턴 공격 하에서의 대규모 추론 모델의 일관성

Consistency of Large Reasoning Models Under Multi-Turn Attacks

R. Krishnan
R. Krishnan
Citations: 7,279
h-index: 47
R. Padman
R. Padman
Citations: 142
h-index: 3
Yubo Li
Yubo Li
Citations: 67
h-index: 4

추론 능력을 갖춘 대규모 추론 모델은 복잡한 작업에서 최고 수준의 성능을 달성하지만, 다중 턴 적대적 압박 하에서의 견고성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 적대적 공격 하에서 9개의 선도적인 추론 모델을 평가했습니다. 연구 결과, 추론 능력은 유의미하지만 불완전한 견고성을 제공하는 것으로 나타났습니다. 연구된 대부분의 추론 모델은 지시 튜닝된 베이스라인보다 훨씬 뛰어난 성능을 보였으나, 모든 모델이 뚜렷한 취약점 양상을 보였습니다. 특히 오도하는 제안은 모든 모델에 효과적이었으며, 사회적 압박은 모델에 따라 상이한 효과를 나타냈습니다. 궤적 분석을 통해 우리는 다섯 가지 실패 유형(자기 의심, 사회적 동조, 제안 하이재킹, 감정적 취약성, 추론 피로)을 식별했으며, 이 중 앞의 두 가지가 실패의 50%를 차지했습니다. 또한 표준 LLM에 효과적인 신뢰도 인식 응답 생성(CARG)이 확장된 추론 과정으로 인해 유발된 과신 때문에 추론 모델에서는 실패한다는 것을 입증했습니다. 직관과는 달리, 무작위 신뢰도 임베딩이 목표 추출보다 더 나은 성능을 보였습니다. 본 연구 결과는 추론 능력이 자동으로 적대적 견고성을 부여하지 않으며, 추론 모델을 위한 신뢰도 기반 방어 기법은 근본적인 재설계가 필요함을 강조합니다.

Original Abstract

Large reasoning models with reasoning capabilities achieve state-of-the-art performance on complex tasks, but their robustness under multi-turn adversarial pressure remains underexplored. We evaluate nine frontier reasoning models under adversarial attacks. Our findings reveal that reasoning confers meaningful but incomplete robustness: most reasoning models studied significantly outperform instruction-tuned baselines, yet all exhibit distinct vulnerability profiles, with misleading suggestions universally effective and social pressure showing model-specific efficacy. Through trajectory analysis, we identify five failure modes (Self-Doubt, Social Conformity, Suggestion Hijacking, Emotional Susceptibility, and Reasoning Fatigue) with the first two accounting for 50% of failures. We further demonstrate that Confidence-Aware Response Generation (CARG), effective for standard LLMs, fails for reasoning models due to overconfidence induced by extended reasoning traces; counterintuitively, random confidence embedding outperforms targeted extraction. Our results highlight that reasoning capabilities do not automatically confer adversarial robustness and that confidence-based defenses require fundamental redesign for reasoning models.

0 Citations
0 Influential
23.5 Altmetric
117.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!