2601.17982v1 Jan 25, 2026 cs.CL

SD-E$^2$: 토큰 예산 하에서의 추론을 위한 의미 탐색

SD-E$^2$: Semantic Exploration for Reasoning Under Token Budgets

Kshitij Mishra
Kshitij Mishra
Citations: 5
h-index: 1
Nils Lukas
Nils Lukas
Citations: 23
h-index: 3
S. Lahlou
S. Lahlou
Citations: 1,605
h-index: 9

소규모 언어 모델(SLM)은 제한된 컴퓨팅 예산 하에서 탐색이 어렵기 때문에 복잡한 추론에 어려움을 겪습니다. 본 논문에서는 의미 다양성-탐색-활용(SD-E$^2$)이라는 강화 학습 프레임워크를 소개합니다. SD-E$^2$는 생성된 추론 경로에서 의미적 다양성을 최적화하여 탐색을 명시적으로 수행합니다. 동결된 문장 임베딩 모델을 사용하여, SD-E$^2$는 표면 형태의 새로움이 아닌, (i) 의미적으로 구별되는 해결 전략의 범위를 포괄하고 (ii) 임베딩 공간에서 평균 쌍별 불일치를 반영하는 다양성 보상을 부여합니다. 이 다양성 보상은 결과 정확성과 해결 효율성과 함께 Z-점수로 정규화된 다중 목표 최적화 방식으로 결합되어 학습을 안정화합니다. GSM8K 데이터셋에서 SD-E$^2$는 기본 모델인 Qwen2.5-3B-Instruct 및 GRPO 기반 모델(GRPO-CFL 및 GRPO-CFEE)을 각각 27.4%, 5.2% 및 1.5%p 앞서며, 질문당 평균 9.8개의 의미적으로 구별되는 전략을 발견합니다. 또한, SD-E$^2$는 MedMCQA 데이터셋에서 기본 모델보다 49.64%의 성능을 보이며, 더 어려운 AIME 벤치마크(1983-2025)에서도 13.28%의 성능을 보여 기본 모델의 6.74%보다 높은 성능을 달성합니다. 이러한 결과는 의미적 새로움을 보상하는 것이 추론 능력을 갖춘 SLM을 학습시키는 데 더 효율적인 탐색-활용 신호를 제공한다는 것을 나타냅니다. SD-E$^2$는 토큰 단위 계산이 아닌 추론 과정의 구조를 조정하는 인지적 적응을 도입함으로써, 리소스가 제한된 모델에서 효율성을 향상시키는 또 다른 방법을 제시합니다.

Original Abstract

Small language models (SLMs) struggle with complex reasoning because exploration is expensive under tight compute budgets. We introduce Semantic Diversity-Exploration-Exploitation (SD-E$^2$), a reinforcement learning framework that makes exploration explicit by optimizing semantic diversity in generated reasoning trajectories. Using a frozen sentence-embedding model, SD-E$^2$ assigns a diversity reward that captures (i) the coverage of semantically distinct solution strategies and (ii) their average pairwise dissimilarity in embedding space, rather than surface-form novelty. This diversity reward is combined with outcome correctness and solution efficiency in a z-score-normalized multi-objective objective that stabilizes training. On GSM8K, SD-E$^2$ surpasses the base Qwen2.5-3B-Instruct and strong GRPO baselines (GRPO-CFL and GRPO-CFEE) by +27.4, +5.2, and +1.5 percentage points, respectively, while discovering on average 9.8 semantically distinct strategies per question. We further improve MedMCQA to 49.64% versus 38.37% for the base model and show gains on the harder AIME benchmark (1983-2025), reaching 13.28% versus 6.74% for the base. These results indicate that rewarding semantic novelty yields a more compute-efficient exploration-exploitation signal for training reasoning-capable SLMs. By introducing cognitive adaptation-adjusting the reasoning process structure rather than per-token computation-SD-E$^2$ offers a complementary path to efficiency gains in resource-constrained models.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!