효율성과 투명성의 가교: 멀티모달 대형 추론 모델에서의 설명 가능한 CoT 압축
Bridging Efficiency and Transparency: Explainable CoT Compression in Multimodal Large Reasoning Models
긴 사고 사슬(Long CoT)은 세밀한 시각 정보를 포착하여 복잡한 작업을 수행하기 위해 멀티모달 추론 모델에서 널리 사용됩니다. 그러나 이러한 Long CoT는 종종 지나치게 길고 중복된 추론 단계를 포함하고 있어 추론 효율성을 저해할 수 있습니다. 이러한 긴 CoT를 압축하는 것이 자연스러운 해결책이지만, 기존 접근 방식은 두 가지 주요 과제에 직면해 있습니다. (1) 필수적인 정렬 단서를 제거함으로써 시각-텍스트 추론의 무결성을 훼손할 수 있다는 점, (2) 압축 과정에 설명력이 부족하여 어떤 정보가 중요한지 식별하기 어렵다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 압축을 강화 학습을 통해 최적화된 순차적 의사 결정 과정으로 공식화한 설명 가능한 멀티모달 CoT 압축기인 XMCC를 제안합니다. XMCC는 핵심 추론 단계와 정답의 정확성을 유지하면서 추론 경로를 효과적으로 단축할 수 있으며, 동시에 압축 결정에 대한 자연어 설명을 생성합니다. 대표적인 멀티모달 추론 벤치마크에 대한 광범위한 실험을 통해 XMCC가 추론 길이를 줄일 뿐만 아니라 설명 가능한 근거를 제공하여 그 효과를 입증함을 보여줍니다.
Long chains of thought (Long CoTs) are widely employed in multimodal reasoning models to tackle complex tasks by capturing detailed visual information. However, these Long CoTs are often excessively lengthy and contain redundant reasoning steps, which can hinder inference efficiency. Compressing these long CoTs is a natural solution, yet existing approaches face two major challenges: (1) they may compromise the integrity of visual-textual reasoning by removing essential alignment cues, and (2) the compression process lacks explainability, making it difficult to discern which information is critical. To address these problems, we propose XMCC, an eXplainable Multimodal CoT Compressor that formulates compression as a sequential decision-making process optimized via reinforcement learning. XMCC can effectively shorten reasoning trajectories while preserving key reasoning steps and answer correctness, and simultaneously generates natural-language explanations for its compression decisions. Extensive experiments on representative multimodal reasoning benchmarks demonstrate that XMCC not only reduces reasoning length but also provides explainable explanations, validating its effectiveness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.