MAS-Algorithm: 다중 에이전트 시스템을 이용한 알고리즘 프로그래밍 문제 해결을 위한 워크플로우
MAS-Algorithm: A Workflow for Solving Algorithmic Programming Problems with a Multi-Agent System
알고리즘 문제 해결은 AI 코딩 시스템에서 구조적 추론 능력을 평가하는 엄격한 테스트 환경으로, 모델이 복잡한 시나리오에서 구조적 추론을 수행하는 능력을 직접적으로 반영합니다. 기존 접근 방식은 주로 아키텍처 수정 및 데이터 스케일링과 같은 모델 중심 전략에 의존하는데, 이는 비용이 많이 들고 해석 가능성이 제한적입니다. 외부 도구나 프롬프트 기술(예: 체인 오브 소트)을 활용하는 대체 방법은 종종 단편적이며 통일된 프레임워크가 부족합니다. 본 논문에서는 경쟁 프로그래머 및 알고리즘 엔지니어의 방식을 참고하여 설계된 체계적인 다중 에이전트 워크플로우인 MAS-Algorithm을 제안합니다. 우리 프레임워크는 전체 문제 해결 과정을 모듈화된 단계로 분해하여 구조적 추론, 도구 통합 및 에이전트 간의 유연한 조정을 가능하게 합니다. 설계는 엄격함과 확장성을 모두 강조하여 다양한 문제 유형에 걸쳐 일반화할 수 있도록 합니다. 자체적으로 구축한 벤치마크를 사용한 실험 결과, Qwen 시리즈 모델 전반에 걸쳐 일관된 성능 향상을 보였으며, 평균적으로 수용률이 6.48% 향상되었습니다. 반면, 동일한 데이터에 대한 매개변수 효율적인 미세 조정은 0.89%의 미미한 개선만 보였습니다. 또한 LiveCodeBench-Pro에서 4.72%의 성능 향상과 함께 추가적인 정확성 및 효율성 지표에서도 일관된 개선을 보였습니다. 성능 향상 외에도 워크플로우 내의 추론 과정을 더 잘 이해하기 위해 오류 패턴 및 다양한 시나리오에서의 동작을 포함한 종합적인 분석을 수행했습니다. 또한, 프레임워크의 잠재력을 탐색하기 위해 맞춤형 대체 및 제거 연구를 수행한 결과, 개별 에이전트가 최대 27.7%까지 성능 향상에 기여할 수 있음을 확인했습니다. 이러한 결과는 MAS-Algorithm이 AI 기반 알고리즘 추론 발전에 큰 잠재력을 가지고 있음을 보여줍니다.
Algorithmic problem solving serves as a rigorous testbed for evaluating structured reasoning in AI coding systems, as it directly reflects a model's ability to perform structured reasoning in complex scenarios.Existing approaches predominantly rely on model-centric strategies, such as architectural modifications and data scaling, which are costly and offer limited interpretability. Alternative methods leveraging external tools or prompting techniques (e.g., chain-of-thought) are often fragmented and lack a unified framework. In this paper, we propose MAS-Algorithm, a systematic multi-agent workflow for algorithmic problem solving inspired by the practices of competitive programmers and algorithm engineers. Our framework decomposes the end-to-end solving process into modular stages, enabling structured reasoning, tool integration, and flexible coordination among agents. The design emphasizes both rigor and extensibility, allowing it to generalize across diverse problem types.Experimental results on a self-constructed benchmark demonstrate consistent improvements across multiple Qwen series models, achieving an average gain of 6.48% in acceptance rate. In contrast, parameter-efficient fine-tuning on the same data yields only a marginal improvement of 0.89%. We further observe a 4.72% gain on LiveCodeBench-Pro, along with consistent improvements across additional accuracy and efficiency metrics.Beyond performance gains, we conduct comprehensive analyses to better understand the reasoning process within the workflow, including error patterns and cross-scenario behaviors. We further perform customized replacement and ablation studies to explore the upper bound of the framework, showing that individual agents can contribute improvements of up to 27.7%. These results highlight the strong potential of MAS-Algorithm for advancing AI-driven algorithmic reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.