2601.05053v1 Jan 08, 2026 cs.AI

의미적으로 다양한 탐색을 통한 강화된 효율적 추론

Reinforced Efficient Reasoning via Semantically Diverse Exploration

Ziqi Zhao
Ziqi Zhao
Citations: 3
h-index: 1
Zhaochun Ren
Zhaochun Ren
Citations: 340
h-index: 10
Liu Yang
Liu Yang
Citations: 18
h-index: 2
Zhiwei Xu
Zhiwei Xu
Citations: 1
h-index: 1
Xuri Ge
Xuri Ge
Citations: 374
h-index: 11
Zhumin Chen
Zhumin Chen
Citations: 6,454
h-index: 39
Xinyu Ma
Xinyu Ma
Citations: 3
h-index: 1
Daiting Shi
Daiting Shi
Citations: 257
h-index: 6
Shuaiqiang Wang
Shuaiqiang Wang
Citations: 2,130
h-index: 18
Dawei Yin
Dawei Yin
Citations: 1,218
h-index: 18
Xin Xin
Xin Xin
Citations: 172
h-index: 8
Jiahong Zou
Jiahong Zou
Citations: 9
h-index: 2

검증 가능한 보상을 사용하는 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 효과적임이 입증되었습니다. 몬테카를로 트리 탐색(MCTS) 기반의 확장은 세밀한 세그먼트 수준의 기여도 할당을 가능하게 하는 트리 기반 추론 롤아웃을 제공함으로써 기존 RLVR(예: GRPO)을 개선합니다. 그러나 기존 방법들은 여전히 탐색 다양성이 제한적이고 추론이 비효율적이라는 문제를 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 LLM을 위한 의미적으로 다양한 탐색을 통한 강화된 효율적 추론, 즉 ROSE를 제안합니다. 더 다양한 추론 탐색을 장려하기 위해, 제안하는 방법은 의미론적 엔트로피 기반 분기 전략과 ε-탐색 메커니즘을 결합합니다. 전자는 이미 샘플링된 추론 롤아웃에서 작동하여 의미론적 불확실성을 포착하고 의미론적 차이가 큰 분기점을 선택해 새로운 후속 추론 경로를 생성하며, 후자는 루트에서 확률적으로 추론 롤아웃을 시작하여 탐색 과정이 지나치게 국소화되는 것을 방지합니다. 효율성을 높이기 위해, 우리는 간결하고 정확한 추론에는 보상을 주고 불필요하게 긴 추론 체인에는 페널티를 부여하는 길이 인식 세그먼트 수준 어드밴티지 추정기를 설계했습니다. Qwen 및 Llama 모델을 사용한 다양한 수학적 추론 벤치마크에 대한 광범위한 실험을 통해 ROSE의 효과와 효율성을 검증했습니다. 코드는 https://github.com/ZiqiZhao1/ROSE-rl 에서 확인할 수 있습니다.

Original Abstract

Reinforcement learning with verifiable rewards (RLVR) has proven effective in enhancing the reasoning of large language models (LLMs). Monte Carlo Tree Search (MCTS)-based extensions improve upon vanilla RLVR (e.g., GRPO) by providing tree-based reasoning rollouts that enable fine-grained and segment-level credit assignment. However, existing methods still suffer from limited exploration diversity and inefficient reasoning. To address the above challenges, we propose reinforced efficient reasoning via semantically diverse explorations, i.e., ROSE, for LLMs. To encourage more diverse reasoning exploration, our method incorporates a semantic-entropy-based branching strategy and an $\varepsilon$-exploration mechanism. The former operates on already sampled reasoning rollouts to capture semantic uncertainty and select branching points with high semantic divergence to generate new successive reasoning paths, whereas the latter stochastically initiates reasoning rollouts from the root, preventing the search process from becoming overly local. To improve efficiency, we design a length-aware segment-level advantage estimator that rewards concise and correct reasoning while penalizing unnecessarily long reasoning chains. Extensive experiments on various mathematical reasoning benchmarks with Qwen and Llama models validate the effectiveness and efficiency of ROSE. Codes are available at https://github.com/ZiqiZhao1/ROSE-rl.

0 Citations
0 Influential
44.993061443341 Altmetric
225.0 Score

AI Analysis

Korean Summary

이 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력을 향상시키기 위한 새로운 강화학습 프레임워크인 ROSE(Reinforced Efficient Reasoning via Semantically Diverse Exploration)를 제안합니다. 기존의 GRPO나 MCTS 기반 방법론들은 단순한 생성 확률 엔트로피에 의존하여 탐색의 다양성이 부족하고, 불필요하게 긴 추론 과정을 생성하는 '과잉 사고(overthinking)' 문제가 있었습니다. ROSE는 이를 해결하기 위해 토큰의 의미적 차이를 반영한 '의미론적 엔트로피(Semantic Entropy)'를 사용하여 추론 트리의 분기점을 결정하고, $\epsilon$-탐색 메커니즘을 통해 전역적 탐색과 국소적 탐색의 균형을 맞춥니다. 또한, 추론 길이를 고려한 세그먼트 단위의 이점(Advantage) 추정 방식을 도입하여 정확하면서도 간결한 추론을 학습하도록 유도합니다. 실험 결과, ROSE는 다양한 수학 벤치마크에서 기존 SOTA 알고리즘 대비 더 높은 정확도와 효율성을 입증했습니다.

Key Innovations

  • 의미론적 엔트로피(Semantic Entropy) 기반 탐색: 단순한 확률 분포가 아닌 토큰 임베딩의 의미적 차이를 결합하여 실질적으로 다양한 추론 경로가 생성될 수 있는 분기점을 식별함
  • $\epsilon$-탐색($\epsilon$-exploration) 메커니즘: 완전히 새로운 롤아웃을 생성하는 독립적 탐색과 기존 트리에서 분기하는 탐색을 확률적으로 혼합하여 최적화 과정이 국소 최적해(Local Optima)에 빠지는 것을 방지함
  • 길이 인지 세그먼트 수준 이점 추정(Length-aware Segment-level Advantage Estimation): 정답을 맞추더라도 불필요하게 긴 추론 경로에는 페널티를 부여하여 모델이 효율적이고 간결한 사고 과정을 학습하도록 보정함

Learning & Inference Impact

학습 과정에서는 트리 구조를 활용한 세그먼트 단위의 정교한 보상 할당(Credit Assignment)이 가능해져, 모델이 추론의 어느 단계가 정답 도출에 기여했는지 더 명확히 학습할 수 있습니다. 특히 의미론적 다양성을 기반으로 한 탐색은 모델이 동어반복적인 생성을 피하고 다양한 문제 해결 전략을 익히도록 돕습니다. 추론 과정(Inference)에서는 학습된 효율성 보상 덕분에 모델이 불필요하게 긴 답변을 생성하는 경향이 줄어들어, 토큰 생성 비용을 절감하면서도 추론 정확도(Pass@k)는 향상되는 결과를 가져옵니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!