RefineRL: 자기 개선 강화 학습을 통한 경쟁 프로그래밍 성능 향상
RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning
대규모 언어 모델(LLM)은 경쟁 프로그래밍(CP)과 같은 복잡한 추론 작업에서 뛰어난 성능을 보여주었지만, 기존 방법은 주로 단일 시도 환경에 초점을 맞추고 있으며, LLM의 반복적인 개선 능력을 간과하고 있습니다. 본 논문에서는 CP 문제 해결을 위한 LLM의 자기 개선 능력을 활용하도록 설계된 새로운 접근 방식인 RefineRL을 제시합니다. RefineRL은 두 가지 주요 혁신을 도입합니다. (1) Skeptical-Agent: 이 에이전트는 CP 문제의 공개 테스트 케이스에 대한 생성된 솔루션을 검증하기 위한 로컬 실행 도구를 갖춘 반복적인 자기 개선 에이전트입니다. 이 에이전트는 자신의 출력에 대해 항상 회의적인 태도를 유지하며, 검증 결과가 정확성을 나타내더라도 엄격한 자기 개선을 수행합니다. (2) 강화 학습(RL) 솔루션: 이 솔루션은 LLM이 표준 RLVR 데이터(즉, 검증 가능한 답변과 함께 제공되는 문제)만을 사용하여 자기 개선하도록 장려합니다. Qwen3-4B 및 Qwen3-4B-2507 모델에 대한 광범위한 실험 결과, 우리의 방법은 상당한 성능 향상을 가져왔습니다. RL 훈련 후, Skeptical-Agent와 통합된 이들 소형 4B 모델은 훨씬 더 큰 32B 모델보다 뛰어난 성능을 보였을 뿐만 아니라, 단일 시도 성능을 보이는 235B 모델에 근접하는 성능을 달성했습니다. 이러한 결과는 자기 개선이 LLM 추론의 확장에 상당한 잠재력을 가지고 있으며, 추가적인 발전 가능성이 높다는 것을 시사합니다.
While large language models (LLMs) have demonstrated strong performance on complex reasoning tasks such as competitive programming (CP), existing methods predominantly focus on single-attempt settings, overlooking their capacity for iterative refinement. In this paper, we present RefineRL, a novel approach designed to unleash the self-refinement capabilities of LLMs for CP problem solving. RefineRL introduces two key innovations: (1) Skeptical-Agent, an iterative self-refinement agent equipped with local execution tools to validate generated solutions against public test cases of CP problems. This agent always maintains a skeptical attitude towards its own outputs and thereby enforces rigorous self-refinement even when validation suggests correctness. (2) A reinforcement learning (RL) solution to incentivize LLMs to self-refine with only standard RLVR data (i.e., problems paired with their verifiable answers). Extensive experiments on Qwen3-4B and Qwen3-4B-2507 demonstrate that our method yields substantial gains: after our RL training, these compact 4B models integrated with the Skeptical-Agent not only outperform much larger 32B models but also approach the single-attempt performance of 235B models. These findings suggest that self-refinement holds considerable promise for scaling LLM reasoning, with significant potential for further advancement.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.