SWE-Protégé: 전문가와의 선택적 협업 학습을 통해 소규모 언어 모델을 소프트웨어 엔지니어링 에이전트로 활용
SWE-Protégé: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents
소규모 언어 모델(SLM)은 비용, 지연 시간 및 적응성 측면에서 상당한 장점을 제공하지만, SWE-bench와 같이 장기적인 소프트웨어 엔지니어링 작업에서는 더 큰 모델에 비해 성능이 뒤쳐지며, 특히 빈번한 반복 작업과 낮은 성공률을 보입니다. 본 연구에서는 SWE-Protégé라는 후처리 프레임워크를 소개합니다. SWE-Protégé는 소프트웨어 수정 작업을 전문가-수련생 협업 문제로 재구성합니다. SWE-Protégé에서 SLM은 여전히 의사 결정의 유일한 주체이지만, 강력한 전문가 모델로부터 선택적으로 지침을 구하고, 정체된 상태를 인식하며, 전문가의 피드백을 따르는 방법을 학습합니다. 저희의 접근 방식은 전문가가 제공한 데이터로 감독 학습을 수행하는 것과 함께, 비생산적인 반복 작업과 비효율적인 전문가 협력을 명시적으로 억제하는 강화 학습을 결합합니다. Qwen2.5-Coder-7B-Instruct 모델을 경량으로 후처리하여 SWE-bench Verified에서 42.4%의 Pass@1 성능을 달성했으며, 이는 이전 SLM 최고 성능보다 25.4% 향상된 결과입니다. 이때 전문가의 도움은 드물게 활용되었으며(작업당 약 4번의 호출, 전체 토큰의 11%), 이는 효율적인 협업 전략을 보여줍니다.
Small language models (SLMs) offer compelling advantages in cost, latency, and adaptability, but have so far lagged behind larger models on long-horizon software engineering tasks such as SWE-bench, where they suffer from pervasive action looping and low resolution rates. We introduce SWE-Protégé, a post-training framework that reframes software repair as an expert-protégé collaboration problem. In SWE-Protégé, an SLM remains the sole decision-maker while learning to selectively seek guidance from a strong expert model, recognize stalled states, and follow through on expert feedback. Our approach combines supervised fine-tuning on expert-augmented trajectories with agentic reinforcement learning that explicitly discourages degenerative looping and unproductive expert collaboration. We lightly post-train Qwen2.5-Coder-7B-Instruct to achieve 42.4% Pass@1 on SWE-bench Verified, a +25.4% improvement over the prior SLM state of the art, while using expert assistance sparsely (~4 calls per task and 11% of total tokens).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.