TermiGen: 높은 정확도의 환경 및 견고한 경로 생성 기술을 활용한 터미널 에이전트
TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents
복잡한 터미널 작업을 수행하는 것은 오픈 웨이트 LLM에게 여전히 중요한 과제이며, 이는 두 가지 근본적인 제약으로 인해 발생합니다. 첫째, 고정밀의 실행 가능한 학습 환경이 부족합니다. 실제 저장소에서 생성된 환경은 다양성과 확장성이 부족하며, LLM이 생성한 경로는 환각 현상을 겪는 경우가 많습니다. 둘째, 표준적인 instruction tuning은 전문가가 생성한 경로를 사용하는데, 이러한 경로는 소규모 모델에서 흔히 발생하는 간단한 오류를 거의 포함하지 않습니다. 이는 데이터 분포의 불일치를 초래하며, 학습 모델이 런타임 오류로부터 회복하는 능력을 저해합니다. 이러한 격차를 해소하기 위해, 우리는 검증 가능한 환경과 안정적인 전문가 경로를 생성하는 데 사용되는 end-to-end 파이프라인인 TermiGen을 소개합니다. TermiGen은 먼저 반복적인 다중 에이전트 개선 루프를 통해 기능적으로 유효한 작업과 Docker 컨테이너를 생성합니다. 그 후, 우리는 경로 수집 과정에서 오류를 적극적으로 주입하는 Generator-Critic 프로토콜을 사용하여 오류 수정 주기가 풍부한 데이터를 생성합니다. TermiGen이 생성한 데이터셋으로 fine-tuning된 TermiGen-Qwen2.5-Coder-32B는 TerminalBench에서 31.3%의 성공률을 달성했습니다. 이는 새로운 오픈 웨이트 최고 성능을 나타내며, 기존의 baseline 모델을 능가하고 o4-mini와 같은 강력한 독점 모델보다 뛰어난 성능을 보입니다. 데이터셋은 https://github.com/ucsb-mlsec/terminal-bench-env 에서 확인할 수 있습니다.
Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.