경로 잠금 전문가(Path-Lock Expert): 아키텍처 수준의 분리를 통한 하이브리드 사고에서의 추론 모드 분리
Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level Separation
하이브리드 사고 언어 모델은 명시적인 사고 모드와 비사고 모드를 드러내지만, 현재 설계에서는 이러한 모드들이 명확하게 분리되지 않습니다. 심지어 비사고 모드에서도 모델은 종종 길고 자기 성찰적인 응답을 생성하여 추론 누출을 야기합니다. 기존 연구에서는 데이터 정제 및 다단계 훈련을 통해 이러한 문제를 완화하려고 시도했지만, 두 모드가 여전히 동일한 피드포워드 파라미터에 인코딩되어 있기 때문에 누출은 여전히 발생합니다. 본 논문에서는 아키텍처 수준의 솔루션인 경로 잠금 전문가(Path-Lock Expert, PLE)를 제안합니다. PLE는 각 디코더 레이어의 단일 MLP를 사고 모드 전용 및 비사고 모드 전용의 두 가지 의미론적으로 연결된 전문가로 대체하며, 어텐션, 임베딩, 정규화 및 언어 모델 헤드는 공유합니다. 결정적인 제어 토큰 라우터는 전체 시퀀스에 대해 정확히 하나의 전문가 경로를 선택하므로 추론은 밀집 모델의 토큰별 계산 패턴을 유지하고, 각 전문가는 지도 학습 미세 조정 중에 모드에 특화된 업데이트를 받습니다. 수학 및 과학 추론 벤치마크에서 PLE는 강력한 사고 성능을 유지하면서, 훨씬 더 정확하고 간결하며 추론 누출에 훨씬 덜 취약한 강력한 비사고 모드를 생성합니다. 예를 들어, Qwen3-4B에서 PLE는 AIME24 데이터셋에서 비사고 모드의 자기 성찰 토큰 수를 2.54에서 0.39로 줄이고, 비사고 모드의 정확도를 20.67%에서 40.00%로 향상시켰으며, 동시에 사고 모드 성능은 유지했습니다. 이러한 결과는 제어 가능한 하이브리드 사고가 근본적으로 아키텍처적인 문제이며, 모드별 피드포워드 경로를 분리하는 것이 간단하고 효과적인 솔루션임을 시사합니다.
Hybrid-thinking language models expose explicit think and no-think modes, but current designs do not separate them cleanly. Even in no-think mode, models often emit long and self-reflective responses, causing reasoning leakage. Existing work reduces this issue through better data curation and multi-stage training, yet leakage remains because both modes are still encoded in the same feed-forward parameters. We propose Path-Lock Expert (PLE), an architecture-level solution that replaces the single MLP in each decoder layer with two semantically locked experts, one for think and one for no-think, while keeping attention, embeddings, normalization, and the language-model head shared. A deterministic control-token router selects exactly one expert path for the entire sequence, so inference preserves the dense model's per-token computation pattern and each expert receives mode-pure updates during supervised fine-tuning. Across math and science reasoning benchmarks, PLE maintains strong think performance while producing a substantially stronger no-think mode that is more accurate, more concise, and far less prone to reasoning leakage. On Qwen3-4B, for example, PLE reduces no-think reflective tokens on AIME24 from 2.54 to 0.39 and improves no-think accuracy from 20.67% to 40.00%, all while preserving think-mode performance. These results suggest that controllable hybrid thinking is fundamentally an architectural problem, and separating mode-specific feed-forward pathways is a simple and effective solution.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.