2603.17829v1 Mar 18, 2026 cs.SE

CodeScout: 코드 검색 에이전트 강화 학습을 위한 효과적인 방법

CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents

S. Vijayvargiya
S. Vijayvargiya
Citations: 70
h-index: 4
Graham Neubig
Graham Neubig
Citations: 739
h-index: 14
Lintang Sutawika
Lintang Sutawika
LTI, Carnegie Mellon University
Citations: 8,222
h-index: 12
Aditya Bharat Soni
Aditya Bharat Soni
Language Technologies Institute, Carnegie Mellon University
Citations: 56
h-index: 3
R. BharathSriraamR
R. BharathSriraamR
Citations: 0
h-index: 0
Apurva Gandhi
Apurva Gandhi
Citations: 121
h-index: 4
Taha Yassine
Taha Yassine
b<>com
Citations: 146
h-index: 6
Yuchen Li
Yuchen Li
Citations: 172
h-index: 4
Xuhui Zhou
Xuhui Zhou
Citations: 278
h-index: 6
L. Maben
L. Maben
Citations: 155
h-index: 2
Yilin Zhang
Yilin Zhang
Citations: 14,625
h-index: 6

코딩 에이전트가 대규모 저장소에서 작업을 수행하기 위해서는 코드 위치 파악이 필수적입니다. 이는 관련 파일, 클래스 및 함수를 식별하는 것을 의미합니다. 저장소 수준의 코드 위치 파악은 벡터 검색과 같은 임베딩 기반 검색 방법을 사용하여 수행되어 왔지만, 최근 연구에서는 에이전트가 실제 작업을 수행하기 전에 또는 동시에 관련 코드를 위치 파악하도록 하는 데 중점을 두고 있습니다. 기존의 에이전트 기반 코드 검색 방법은 주로 정적 분석에서 파생된 저장소 그래프와 같은 복잡하고 특수화된 도구를 에이전트에 제공합니다. 본 논문에서는 효과적인 강화 학습 방법을 통해 표준 Unix 터미널만 장착한 코딩 에이전트를 훈련시켜 강력한 성능을 달성할 수 있음을 보여줍니다. SWE-Bench Verified, Pro 및 Lite의 세 가지 벤치마크에서 수행한 실험 결과, 저희 모델은 2~18배 더 크고 사전 훈련된 LLM보다 일관되게 우수한 또는 경쟁력 있는 성능을 보였으며, 때로는 Claude Sonnet과 같은 폐쇄형 모델이 제공하는 성능에 근접하는 결과를 보이기도 했습니다. 저희 연구는 특히 코드 검색을 위한 기존 코딩 에이전트 환경 재활용, 보상 설계 및 강화 학습 최적화 기술에 중점을 둡니다. 저희는 개발된 모델 패밀리인 CodeScout과 함께 모든 코드 및 데이터를 공개하여 커뮤니티가 이를 활용하여 연구를 진행할 수 있도록 지원합니다.

Original Abstract

A prerequisite for coding agents to perform tasks on large repositories is code localization - the identification of relevant files, classes, and functions to work on. While repository-level code localization has been performed using embedding-based retrieval approaches such as vector search, recent work has focused on developing agents to localize relevant code either as a standalone precursor to or interleaved with performing actual work. Most prior methods on agentic code search equip the agent with complex, specialized tools, such as repository graphs derived from static analysis. In this paper, we demonstrate that, with an effective reinforcement learning recipe, a coding agent equipped with nothing more than a standard Unix terminal can be trained to achieve strong results. Our experiments on three benchmarks (SWE-Bench Verified, Pro, and Lite) reveal that our models consistently achieve superior or competitive performance over 2-18x larger base and post-trained LLMs and sometimes approach performance provided by closed models like Claude Sonnet, even when using specialized scaffolds. Our work particularly focuses on techniques for re-purposing existing coding agent environments for code search, reward design, and RL optimization. We release the resulting model family, CodeScout, along with all our code and data for the community to build upon.

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!