MM-ReCoder: 강화 학습과 자기 교정을 통한 차트-코드 생성 기술 발전
MM-ReCoder: Advancing Chart-to-Code Generation with Reinforcement Learning and Self-Correction
최근 멀티모달 대규모 언어 모델(MLLM)은 차트-코드 생성과 같은 멀티모달 코딩 작업에서 유망한 성능을 보여주었습니다. 그러나 기존 방법은 주로 지도 학습(SFT)에 의존하며, 모델이 차트-코드 쌍을 통해 코드 패턴을 학습하도록 하지만, 코드 실행 환경에 노출시키지 않습니다. 또한, 실행 피드백을 통한 자기 교정은 코딩 품질을 향상시킬 수 있는 잠재적인 방법이지만, 최첨단 MLLM조차 효과적인 자기 교정에 어려움을 겪는 것으로 나타났습니다. 본 연구에서는 강화 학습(RL)으로 학습되고 자기 교정 기능을 갖춘 차트-코드 생성 모델인 MM-ReCoder를 소개합니다. 우리는 그룹 상대 정책 최적화(GRPO)를 기반으로 한 2단계 멀티턴 자기 교정 RL 전략을 제안합니다. 첫 번째 단계는 공유된 첫 번째 단계를 통해 모델의 자기 교정 능력을 향상시키고, 두 번째 단계는 전체 경로 최적화를 통해 코딩 능력을 향상시킵니다. MM-ReCoder는 환경과의 상호 작용을 통해 더 정확하고 실행 가능한 코드를 생성하고, 반복적으로 자체 출력을 수정하도록 학습됩니다. 세 개의 차트-코드 벤치마크에서 얻은 결과는 MM-ReCoder가 최첨단 성능을 달성했음을 보여줍니다.
Multimodal Large Language Models (MLLMs) have recently demonstrated promising capabilities in multimodal coding tasks such as chart-to-code generation. However, existing methods primarily rely on supervised fine-tuning (SFT), which requires the model to learn code patterns through chart-code pairs but does not expose the model to a code execution environment. Moreover, while self-correction through execution feedback offers a potential route to improve coding quality, even state-of-the-art MLLMs have been shown to struggle with effective self-correction. In this work, we introduce MM-ReCoder, a chart-to-code generation model trained with reinforcement learning (RL) and equipped with self-correction ability. We propose a two-stage multi-turn self-correction RL strategy based on Group Relative Policy Optimization (GRPO). The first stage enhances the model's self-correction ability via rolling out a shared first turn, while the second stage improves the coding capability with full-trajectory optimization. MM-ReCoder learns to produce more accurate and executable code through the interaction with the environment and by iteratively correcting its own outputs. Our results on three chart-to-code benchmarks demonstrate the state-of-the-art performance of MM-ReCoder.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.