LOGIGEN: 논리 기반 검증 가능한 자율 에이전트 작업 생성
LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks
대규모 언어 모델(LLM)이 정적인 명령 수행기로부터 자율 에이전트로 발전함에 따라, 정확한 상태 변환 목표를 달성하기 위해서는 복잡하고 상태 기반 환경에서 작동해야 합니다. 그러나 이 패러다임은 기존의 도구 중심 역방향 합성 파이프라인이 실제 응용 프로그램의 엄격한 논리를 제대로 반영하지 못하기 때문에 데이터 부족이라는 병목 현상에 직면해 있습니다. 본 논문에서는 세 가지 핵심 원칙, 즉 **하드 컴파일 정책 기반**, **논리 기반 순방향 합성**, 그리고 **결정적 상태 검증**을 기반으로 검증 가능한 학습 데이터를 생성하는 **LOGIGEN**이라는 논리 기반 프레임워크를 소개합니다. 구체적으로, 트리플 에이전트 오케스트레이션을 사용합니다. **아키텍트(Architect)**는 자연어 정책을 데이터베이스 제약 조건으로 컴파일하여 엄격한 규칙을 적용하고, **셋 디자이너(Set Designer)**는 중요한 정책 충돌을 유발하기 위해 경계에 인접한 상태를 초기화하며, **익스플로러(Explorer)**는 이 환경을 탐색하여 인과적 해결 경로를 발견합니다. 이 프레임워크는 8개 도메인에 걸쳐 20,000개의 복잡한 작업으로 구성된 데이터 세트를 생성하며, 정확한 상태 동등성을 검증하여 유효성을 엄격하게 보장합니다. 또한, 검증 기반 학습 프로토콜을 제안합니다. 여기에서 검증 가능한 경로에 대한 지도 학습(Supervised Fine-Tuning, SFT)은 하드 컴파일된 정책을 준수하도록 하며, 밀집 상태 보상을 기반으로 한 강화 학습(Reinforcement Learning, RL)은 장기 목표 달성을 개선합니다. $τ^2$-Bench에서 LOGIGEN-32B(RL)은 **79.5%의 성공률**을 달성하여 기본 모델(40.7%)보다 훨씬 우수한 성능을 보입니다. 이러한 결과는 논리 기반 합성과 검증 기반 학습을 결합하여 차세대 에이전트에 필요한 인과적으로 유효한 경로를 효과적으로 구축할 수 있음을 보여줍니다.
The evolution of Large Language Models (LLMs) from static instruction-followers to autonomous agents necessitates operating within complex, stateful environments to achieve precise state-transition objectives. However, this paradigm is bottlenecked by data scarcity, as existing tool-centric reverse-synthesis pipelines fail to capture the rigorous logic of real-world applications. We introduce \textbf{LOGIGEN}, a logic-driven framework that synthesizes verifiable training data based on three core pillars: \textbf{Hard-Compiled Policy Grounding}, \textbf{Logic-Driven Forward Synthesis}, and \textbf{Deterministic State Verification}. Specifically, a Triple-Agent Orchestration is employed: the \textbf{Architect} compiles natural-language policy into database constraints to enforce hard rules; the \textbf{Set Designer} initializes boundary-adjacent states to trigger critical policy conflicts; and the \textbf{Explorer} searches this environment to discover causal solution paths. This framework yields a dataset of 20,000 complex tasks across 8 domains, where validity is strictly guaranteed by checking exact state equivalence. Furthermore, we propose a verification-based training protocol where Supervised Fine-Tuning (SFT) on verifiable trajectories establishes compliance with hard-compiled policy, while Reinforcement Learning (RL) guided by dense state-rewards refines long-horizon goal achievement. On $τ^2$-Bench, LOGIGEN-32B(RL) achieves a \textbf{79.5\% success rate}, substantially outperforming the base model (40.7\%). These results demonstrate that logic-driven synthesis combined with verification-based training effectively constructs the causally valid trajectories needed for next-generation agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.