2601.03512v1 Jan 07, 2026 cs.SE

가중 멀티 언어 탐색을 활용한 코드 번역 부트스트래핑

Bootstrapping Code Translation with Weighted Multilanguage Exploration

Yuhan Wu
Yuhan Wu
Citations: 83
h-index: 3
Huan Zhang
Huan Zhang
Citations: 31
h-index: 1
Wei Cheng
Wei Cheng
Citations: 98
h-index: 3
Chen Shen
Chen Shen
Citations: 4
h-index: 1
Jingyue Yang
Jingyue Yang
Citations: 50
h-index: 3
Wei Hu
Wei Hu
Citations: 87
h-index: 3

여러 프로그래밍 언어 간의 코드 번역은 필수적이지만, 병행 데이터의 부족과 실행 가능한 테스트 오라클의 제한, 그리고 다양한 언어 쌍을 처리할 때 발생하는 최적화 불균형이라는 두 가지 중요한 문제로 인해 매우 어렵습니다. 본 논문에서는 이러한 문제점을 해결하는 부트스트래핑 방법인 BootTrans를 제안합니다. BootTrans의 핵심 아이디어는 테스트 스위트의 기능적 불변성과 언어 간 이식성을 활용하여, 풍부한 중간 언어 단위 테스트를 활용하여 다국어 강화 학습(RL) 훈련을 위한 보편적인 검증 오라클로 활용하는 것입니다. 본 방법은 시드 풀과 탐색 풀을 결합한 이중 풀 아키텍처를 사용하여 실행 기반 경험 수집을 통해 훈련 데이터를 점진적으로 확장합니다. 또한, 관련된 언어 간의 상대적인 성능을 기반으로 더 어려운 번역 방향에 우선순위를 부여하는 언어 인지 가중 메커니즘을 설계하여 최적화 불균형을 완화합니다. HumanEval-X 및 TransCoder-Test 벤치마크에 대한 광범위한 실험 결과, 모든 번역 방향에서 기존 LLM보다 상당한 성능 향상을 보였으며, 추가 실험을 통해 부트스트래핑 및 가중치 구성 요소의 효과를 검증했습니다.

Original Abstract

Code translation across multiple programming languages is essential yet challenging due to two vital obstacles: scarcity of parallel data paired with executable test oracles, and optimization imbalance when handling diverse language pairs. We propose BootTrans, a bootstrapping method that resolves both obstacles. Its key idea is to leverage the functional invariance and cross-lingual portability of test suites, adapting abundant pivot-language unit tests to serve as universal verification oracles for multilingual RL training. Our method introduces a dual-pool architecture with seed and exploration pools to progressively expand training data via execution-guided experience collection. Furthermore, we design a language-aware weighting mechanism that dynamically prioritizes harder translation directions based on relative performance across sibling languages, mitigating optimization imbalance. Extensive experiments on the HumanEval-X and TransCoder-Test benchmarks demonstrate substantial improvements over baseline LLMs across all translation directions, with ablations validating the effectiveness of both bootstrapping and weighting components.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!