EvoFSM: 유한 상태 머신을 활용한 제어 가능한 자기 진화: 심층 연구를 위한 프레임워크
EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines
LLM 기반 에이전트는 심층 연구에 유망한 가능성을 보여주었지만, 대부분의 기존 접근 방식은 고정된 워크플로우에 의존하며, 이는 실제 환경의 개방형 질문에 적응하는 데 어려움을 겪습니다. 최근 연구에서는 에이전트가 문제 해결 능력을 향상시키기 위해 자체 코드나 프롬프트를 재작성하는 자기 진화 방식을 탐구하고 있지만, 제약 없는 최적화는 종종 불안정성, 환각 현상, 그리고 지시 오류를 유발합니다. 본 논문에서는 명시적인 유한 상태 머신(FSM)을 진화시켜 적응성과 제어 가능성을 동시에 달성하는 구조화된 자기 진화 프레임워크인 EvoFSM을 제안합니다. EvoFSM은 최적화 공간을 거시적인 흐름(상태 전이 로직)과 미시적인 기술(상태별 행동)로 분리하여, 명확한 행동 경계 내에서 목표 지향적인 개선을 가능하게 합니다. 비평 메커니즘에 의해 안내되는 EvoFSM은 일련의 제약된 연산을 통해 FSM을 개선하며, 또한 성공적인 경로를 재사용 가능한 사전 지식으로, 실패 패턴을 향후 질문에 대한 제약 조건으로 활용하는 자기 진화 메모리를 통합합니다. 다섯 가지 멀티홉 질의응답 벤치마크에 대한 광범위한 평가 결과, EvoFSM은 효과적인 성능을 보여줍니다. 특히, EvoFSM은 DeepSearch 벤치마크에서 58.0%의 정확도를 달성했습니다. 또한, 대화형 의사 결정 작업에 대한 추가적인 결과는 그 일반화 성능을 더욱 입증합니다.
While LLM-based agents have shown promise for deep research, most existing approaches rely on fixed workflows that struggle to adapt to real-world, open-ended queries. Recent work therefore explores self-evolution by allowing agents to rewrite their own code or prompts to improve problem-solving ability, but unconstrained optimization often triggers instability, hallucinations, and instruction drift. We propose EvoFSM, a structured self-evolving framework that achieves both adaptability and control by evolving an explicit Finite State Machine (FSM) instead of relying on free-form rewriting. EvoFSM decouples the optimization space into macroscopic Flow (state-transition logic) and microscopic Skill (state-specific behaviors), enabling targeted improvements under clear behavioral boundaries. Guided by a critic mechanism, EvoFSM refines the FSM through a small set of constrained operations, and further incorporates a self-evolving memory that distills successful trajectories as reusable priors and failure patterns as constraints for future queries. Extensive evaluations on five multi-hop QA benchmarks demonstrate the effectiveness of EvoFSM. In particular, EvoFSM reaches 58.0% accuracy on the DeepSearch benchmark. Additional results on interactive decision-making tasks further validate its generalization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.