CAP-CoT: 사이클 적대적 프롬프트를 활용한 LLM 추론의 연쇄적 사고 개선
CAP-CoT: Cycle Adversarial Prompt for Improving Chain of Thoughts in LLM Reasoning
연쇄적 사고(CoT) 프롬프팅은 대규모 언어 모델(LLM)로부터 단계별 솔루션을 이끌어내는 간단하고 효과적인 방법으로 부상했습니다. 그러나 CoT 추론은 긴 다단계 문제에서 실행마다 불안정할 수 있으며, 동일한 작업에 대해 일관되지 않은 답변을 초래할 수 있습니다. 기존 연구의 대부분은 단일 단계 내에서의 전방향 추론 체인을 개선하는 데 초점을 맞추고 있으며, 반복적이고 대비적인 수정에 대한 관심은 상대적으로 적었습니다. 이러한 격차를 해결하기 위해, 우리는 단일 배포 솔루버의 CoT 추론 정확도와 안정성을 모두 향상시키도록 설계된 프레임워크인 CAP-CoT를 제안합니다. 각 주기에서, 전방향 솔루버는 후보 추론 체인을 생성하고, 적대적 챌린저는 목표 오류 전략을 사용하여 타당하지만 의도적으로 결함이 있는 체인을 구성하며, 피드백 에이전트는 두 체인을 비교하여 단계별로 정렬된 구조화된 피드백을 생성합니다. 이 피드백은 두 가지 방향으로 최적화 루프를 닫습니다. 즉, 챌린저가 드러낸 오류를 기반으로 솔루버 프롬프트를 업데이트하고, 후속 주기에 점점 더 목표적인 오류를 생성하도록 챌린저 프롬프트를 업데이트합니다. 우리의 적대적 구성 요소는 보안 관련 적대적 프롬프팅(예: 탈옥 또는 프롬프트 주입 공격)과는 달리, 작업 의미론적이며 추론 체인의 논리적 취약점을 드러내는 것을 목표로 합니다. 6개의 벤치마크와 4개의 LLM 백본에 대한 실험 결과, CAP-CoT는 두세 번의 적대적 프롬프트 최적화 주기를 통해 일관성을 감소시키면서 추론 정확도와 프롬프트 변경에 대한 견고성을 향상시키는 것으로 나타났습니다.
Chain-of-Thought (CoT) prompting has emerged as a simple and effective way to elicit step-by-step solutions from large language models (LLMs). However, CoT reasoning can be unstable across runs on long, multi-step problems, leading to inconsistent answers for unchanged task. Most prior work focuses on improving the forward reasoning chain within a single pass, with less attention to iterative and contrastive correction. To address this gap, we propose CAP-CoT, a Cycle Adversarial Prompt optimization framework designed to improve both CoT reasoning accuracy and stability of a single deployed solver. In each cycle, a forward solver generates candidate reasoning chains, an adversarial challenger constructs plausible but deliberately flawed chains using targeted error strategies, and a feedback agent contrasts the two chains and produces step-aligned structured feedback. This feedback closes the optimization loop in two directions, including updating the solver prompt based on errors exposed by the challenger, and updating the challenger prompt to generate increasingly targeted errors in subsequent cycles. Unlike safety-oriented adversarial prompting such as jailbreak or prompt-injection attacks, our adversarial component is task-semantic and aims to expose logical vulnerabilities in reasoning chains. Experiments across six benchmarks and four LLM backbones demonstrate that within two to three adversarial prompt optimization cycles, CAP-CoT consistently reduces variability across runs while improving reasoning accuracy and robustness to prompt perturbations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.