SeLaR: 대규모 언어 모델에서의 선택적 잠재적 추론
SeLaR: Selective Latent Reasoning in Large Language Models
체인-오브-소트(Chain-of-Thought, CoT)는 대규모 언어 모델에서의 추론의 핵심 요소로 자리 잡았지만, 이의 효과는 이산적인 토큰 샘플링의 제한적인 표현력에 의해 제약됩니다. 최근의 잠재적 추론 방법들은 이러한 제한을 완화하기 위해 이산적인 토큰을 확률 가중 혼합된 토큰 임베딩 또는 숨겨진 상태로 대체하려 시도하지만, 일반적으로 다음과 같은 두 가지 문제점을 안고 있습니다: (1) 전역적인 활성화는 높은 신뢰도를 갖는 단계에 혼란을 주입하여 추론의 안정성을 저해하고, (2) 소프트 임베딩은 빠르게 가장 높은 확률을 갖는 토큰으로 수렴하여 대체 경로 탐색을 제한합니다. 이러한 문제점을 해결하기 위해, 우리는 가볍고 학습이 필요 없는 프레임워크인 SeLaR (Selective Latent Reasoning)을 제안합니다. SeLaR은 엔트로피 게이팅 메커니즘을 도입하여, 낮은 신뢰도를 갖는 단계에서만 소프트 임베딩을 활성화하고, 높은 신뢰도를 갖는 단계에서는 이산적인 디코딩을 유지합니다. 또한, 우리는 엔트로피를 고려한 대비 학습(contrastive regularization)을 제안하여, 소프트 임베딩을 지배적인 (가장 높은 확률을 갖는) 토큰의 방향에서 멀어지도록 유도하여, 여러 잠재적 추론 경로를 지속적으로 탐색하도록 장려합니다. 다섯 가지 추론 벤치마크에서의 실험 결과, SeLaR은 기존의 CoT 방법과 최첨단 학습이 필요 없는 방법들을 지속적으로 능가하는 것으로 나타났습니다.
Chain-of-Thought (CoT) has become a cornerstone of reasoning in large language models, yet its effectiveness is constrained by the limited expressiveness of discrete token sampling. Recent latent reasoning approaches attempt to alleviate this limitation by replacing discrete tokens with soft embeddings (probability-weighted mixtures of token embeddings) or hidden states, but they commonly suffer from two issues: (1) global activation injects perturbations into high-confidence steps, impairing reasoning stability; and (2) soft embeddings quickly collapse toward the highest-probability token, limiting exploration of alternative trajectories. To address these challenges, we propose SeLaR (Selective Latent Reasoning), a lightweight and training-free framework. SeLaR introduces an entropy-gated mechanism that activates soft embeddings only at low-confidence steps, while preserving discrete decoding at high-confidence steps. Additionally, we propose an entropy-aware contrastive regularization that pushes soft embeddings away from the dominant (highest-probability) token's direction, encouraging sustained exploration of multiple latent reasoning paths. Experiments on five reasoning benchmarks demonstrate that SeLaR consistently outperforms standard CoT and state-of-the-art training-free methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.