2604.01600v1 Apr 02, 2026 cs.AI

MM-ReCoder: 강화 학습과 자기 교정을 통한 차트-코드 생성 기술 발전

MM-ReCoder: Advancing Chart-to-Code Generation with Reinforcement Learning and Self-Correction

Zitian Tang
Zitian Tang
Citations: 31
h-index: 4
Song Jiang
Song Jiang
Citations: 321
h-index: 9
Yang Zou
Yang Zou
Citations: 2
h-index: 1
V. Gunjal
V. Gunjal
Citations: 64
h-index: 1
Davide Modolo
Davide Modolo
Citations: 74
h-index: 3
Xu Zhang
Xu Zhang
Peking University
Citations: 81
h-index: 4
Jianbo Yuan
Jianbo Yuan
Citations: 661
h-index: 12

최근 멀티모달 대규모 언어 모델(MLLM)은 차트-코드 생성과 같은 멀티모달 코딩 작업에서 유망한 성능을 보여주었습니다. 그러나 기존 방법은 주로 지도 학습(SFT)에 의존하며, 모델이 차트-코드 쌍을 통해 코드 패턴을 학습하도록 하지만, 코드 실행 환경에 노출시키지 않습니다. 또한, 실행 피드백을 통한 자기 교정은 코딩 품질을 향상시킬 수 있는 잠재적인 방법이지만, 최첨단 MLLM조차 효과적인 자기 교정에 어려움을 겪는 것으로 나타났습니다. 본 연구에서는 강화 학습(RL)으로 학습되고 자기 교정 기능을 갖춘 차트-코드 생성 모델인 MM-ReCoder를 소개합니다. 우리는 그룹 상대 정책 최적화(GRPO)를 기반으로 한 2단계 멀티턴 자기 교정 RL 전략을 제안합니다. 첫 번째 단계는 공유된 첫 번째 단계를 통해 모델의 자기 교정 능력을 향상시키고, 두 번째 단계는 전체 경로 최적화를 통해 코딩 능력을 향상시킵니다. MM-ReCoder는 환경과의 상호 작용을 통해 더 정확하고 실행 가능한 코드를 생성하고, 반복적으로 자체 출력을 수정하도록 학습됩니다. 세 개의 차트-코드 벤치마크에서 얻은 결과는 MM-ReCoder가 최첨단 성능을 달성했음을 보여줍니다.

Original Abstract

Multimodal Large Language Models (MLLMs) have recently demonstrated promising capabilities in multimodal coding tasks such as chart-to-code generation. However, existing methods primarily rely on supervised fine-tuning (SFT), which requires the model to learn code patterns through chart-code pairs but does not expose the model to a code execution environment. Moreover, while self-correction through execution feedback offers a potential route to improve coding quality, even state-of-the-art MLLMs have been shown to struggle with effective self-correction. In this work, we introduce MM-ReCoder, a chart-to-code generation model trained with reinforcement learning (RL) and equipped with self-correction ability. We propose a two-stage multi-turn self-correction RL strategy based on Group Relative Policy Optimization (GRPO). The first stage enhances the model's self-correction ability via rolling out a shared first turn, while the second stage improves the coding capability with full-trajectory optimization. MM-ReCoder learns to produce more accurate and executable code through the interaction with the environment and by iteratively correcting its own outputs. Our results on three chart-to-code benchmarks demonstrate the state-of-the-art performance of MM-ReCoder.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!