SD-E$^2$: 토큰 예산 하에서의 추론을 위한 의미 탐색
SD-E$^2$: Semantic Exploration for Reasoning Under Token Budgets
소규모 언어 모델(SLM)은 제한된 컴퓨팅 예산 하에서 탐색이 어렵기 때문에 복잡한 추론에 어려움을 겪습니다. 본 논문에서는 의미 다양성-탐색-활용(SD-E$^2$)이라는 강화 학습 프레임워크를 소개합니다. SD-E$^2$는 생성된 추론 경로에서 의미적 다양성을 최적화하여 탐색을 명시적으로 수행합니다. 동결된 문장 임베딩 모델을 사용하여, SD-E$^2$는 표면 형태의 새로움이 아닌, (i) 의미적으로 구별되는 해결 전략의 범위를 포괄하고 (ii) 임베딩 공간에서 평균 쌍별 불일치를 반영하는 다양성 보상을 부여합니다. 이 다양성 보상은 결과 정확성과 해결 효율성과 함께 Z-점수로 정규화된 다중 목표 최적화 방식으로 결합되어 학습을 안정화합니다. GSM8K 데이터셋에서 SD-E$^2$는 기본 모델인 Qwen2.5-3B-Instruct 및 GRPO 기반 모델(GRPO-CFL 및 GRPO-CFEE)을 각각 27.4%, 5.2% 및 1.5%p 앞서며, 질문당 평균 9.8개의 의미적으로 구별되는 전략을 발견합니다. 또한, SD-E$^2$는 MedMCQA 데이터셋에서 기본 모델보다 49.64%의 성능을 보이며, 더 어려운 AIME 벤치마크(1983-2025)에서도 13.28%의 성능을 보여 기본 모델의 6.74%보다 높은 성능을 달성합니다. 이러한 결과는 의미적 새로움을 보상하는 것이 추론 능력을 갖춘 SLM을 학습시키는 데 더 효율적인 탐색-활용 신호를 제공한다는 것을 나타냅니다. SD-E$^2$는 토큰 단위 계산이 아닌 추론 과정의 구조를 조정하는 인지적 적응을 도입함으로써, 리소스가 제한된 모델에서 효율성을 향상시키는 또 다른 방법을 제시합니다.
Small language models (SLMs) struggle with complex reasoning because exploration is expensive under tight compute budgets. We introduce Semantic Diversity-Exploration-Exploitation (SD-E$^2$), a reinforcement learning framework that makes exploration explicit by optimizing semantic diversity in generated reasoning trajectories. Using a frozen sentence-embedding model, SD-E$^2$ assigns a diversity reward that captures (i) the coverage of semantically distinct solution strategies and (ii) their average pairwise dissimilarity in embedding space, rather than surface-form novelty. This diversity reward is combined with outcome correctness and solution efficiency in a z-score-normalized multi-objective objective that stabilizes training. On GSM8K, SD-E$^2$ surpasses the base Qwen2.5-3B-Instruct and strong GRPO baselines (GRPO-CFL and GRPO-CFEE) by +27.4, +5.2, and +1.5 percentage points, respectively, while discovering on average 9.8 semantically distinct strategies per question. We further improve MedMCQA to 49.64% versus 38.37% for the base model and show gains on the harder AIME benchmark (1983-2025), reaching 13.28% versus 6.74% for the base. These results indicate that rewarding semantic novelty yields a more compute-efficient exploration-exploitation signal for training reasoning-capable SLMs. By introducing cognitive adaptation-adjusting the reasoning process structure rather than per-token computation-SD-E$^2$ offers a complementary path to efficiency gains in resource-constrained models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.