EGSS: 엔트로피 기반 단계별 확장 기법을 이용한 신뢰성 있는 소프트웨어 엔지니어링
EGSS: Entropy-guided Stepwise Scaling for Reliable Software Engineering
에이전트 기반의 테스트 시간 확장(TTS) 기술은 코드 생성 및 버그 수정과 같은 복잡한 소프트웨어 엔지니어링 작업에서 최첨단(SOTA) 성능을 보여주었습니다. 그러나 상당한 계산 오버헤드로 인해 실제 적용은 제한적이며, 이는 주로 다음과 같은 두 가지 주요 문제점에서 비롯됩니다. (1) 지나치게 큰 모델 집합을 배포하는 데 드는 높은 비용, 그리고 (2) 최적의 후보 솔루션을 선택할 수 있는 신뢰성 있는 메커니즘의 부족으로 인해 얻을 수 있는 성능 향상이 제한됩니다. 이러한 문제점을 해결하기 위해, 우리는 엔트로피 기반의 적응적 탐색과 견고한 테스트 스위트 증강을 통해 효율성과 효과성을 동적으로 균형을 맞추는 새로운 TTS 프레임워크인 엔트로피 기반 단계별 확장(EGSS)을 제안합니다. SWE-Bench-Verified 데이터셋에 대한 광범위한 실험 결과, EGSS는 평가된 모든 모델에서 5~10%의 성능 향상을 지속적으로 보여주었습니다. 특히, EGSS는 Kimi-K2-Intruct 모델의 해결 비율을 63.2%에서 72.2%로, GLM-4.6 모델의 해결 비율을 65.8%에서 74.6%로 향상시켰습니다. 또한, EGSS는 GLM-4.6 모델과 함께 사용될 때 오픈 소스 대규모 언어 모델 중에서 새로운 최첨단 성능을 달성했습니다. 이러한 정확도 향상 외에도, EGSS는 기존의 TTS 방법과 비교하여 추론 시간 동안 사용되는 토큰 수를 28% 이상 줄여, 효과성과 계산 효율성 모두에서 동시에 성능 향상을 이뤘습니다.
Agentic Test-Time Scaling (TTS) has delivered state-of-the-art (SOTA) performance on complex software engineering tasks such as code generation and bug fixing. However, its practical adoption remains limited due to significant computational overhead, primarily driven by two key challenges: (1) the high cost associated with deploying excessively large ensembles, and (2) the lack of a reliable mechanism for selecting the optimal candidate solution, ultimately constraining the performance gains that can be realized. To address these challenges, we propose Entropy-Guided Stepwise Scaling (EGSS), a novel TTS framework that dynamically balances efficiency and effectiveness through entropy-guided adaptive search and robust test-suite augmentation. Extensive experiments on SWE-Bench-Verified demonstrate that EGSS consistently boosts performance by 5-10% across all evaluated models. Specifically, it increases the resolved ratio of Kimi-K2-Intruct from 63.2% to 72.2%, and GLM-4.6 from 65.8% to 74.6%. Furthermore, when paired with GLM-4.6, EGSS achieves a new state-of-the-art among open-source large language models. In addition to these accuracy improvements, EGSS reduces inference-time token usage by over 28% compared to existing TTS methods, achieving simultaneous gains in both effectiveness and computational efficiency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.