2603.19152v1 Mar 19, 2026 cs.CL

VEPO: 저자원 언어 기반 모델을 위한 가변 엔트로피 정책 최적화

VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models

Shousheng Jia
Shousheng Jia
Citations: 167
h-index: 2
Chonghan Liu
Chonghan Liu
Citations: 33
h-index: 2
Yiming Du
Yiming Du
Citations: 199
h-index: 2
Qi An
Qi An
Citations: 190
h-index: 3
Cunqi Zhai
Cunqi Zhai
Citations: 0
h-index: 0
Fei Tan
Fei Tan
Citations: 22
h-index: 2
Weijian Lin
Weijian Lin
Citations: 173
h-index: 3
Xiaochun Gong
Xiaochun Gong
Citations: 0
h-index: 0
Yongchao Deng
Yongchao Deng
Citations: 331
h-index: 5
Xin He
Xin He
Citations: 329
h-index: 6
Xiangzheng Zhang
Xiangzheng Zhang
Citations: 293
h-index: 6

대규모 언어 모델은 종종 자원이 부족한 언어에서 최적의 성능을 보이지 않는데, 이는 주로 비효율적인 서브워드 분절 및 체계적인 학습 데이터 불균형 때문입니다. 본 논문에서는 변동 엔트로피 정책 최적화(VEPO)를 제안합니다. VEPO는 강화 학습과 검증 가능한 보상을 활용하여 정책 정렬 과정에 결정적인 구조적 제약을 통합합니다. 이 프레임워크는 지정된 시퀀스 길이, 강력한 형식 일관성 및 엄격한 언어적 정확성을 보장하며, 이러한 모든 요소는 학습 과정에서 적용됩니다. VEPO의 핵심은 모델이 문자 그대로의 충실도와 의미적 자연스러움 사이의 균형을 동적으로 조정하여 탐색-활용 공간을 조절하는 가변 엔트로피 메커니즘입니다. VEPO는 엔트로피에 가중치를 둔 장점 추정 및 비대칭 클리핑을 통합하여 강력한 탐색을 유지하면서 정책 붕괴를 완화합니다. 90개의 FLORES-200, COMET-22, chrF 데이터셋에 대한 실험 결과, VEPO는 토큰화 효율성과 번역 품질 모두에서 상당한 개선을 가져왔으며, 이는 소외된 언어의 성능 격차를 해소하는 데 기여합니다.

Original Abstract

Large language models frequently exhibit suboptimal performance on low resource languages, primarily due to inefficient subword segmentation and systemic training data imbalances. In this paper, we propose Variable Entropy Policy Optimization (VEPO), which leverages Reinforcement Learning with Verifiable Rewards to incorporate deterministic structural constraints into the policy alignment process. This framework ensures prescribed sequence length, robust format consistency, and rigorous linguistic well formedness, all enforced during training. Central to our approach is a variable entropy mechanism that enables the model to dynamically calibrate the equilibrium between literal fidelity and semantic naturalness by modulating the exploration exploitation manifold. By integrating entropy tempered advantage estimation with asymmetric clipping, VEPO sustains robust exploration while mitigating policy collapse. Empirical evaluations across 90 FLORES-200, COMET-22, chrF directions demonstrate that VEPO yields substantial improvements in both tokenization efficiency and translation quality, bridging the performance gap for underrepresented languages.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!