확장 가능한 추론 로직: 에이전트 기반 메타-합성으로 논리 추론 확장
Scaling the Scaling Logic: Agentic Meta-Synthesis of Logic Reasoning
검증 가능한 보상을 이용한 강화 학습(RLVR)에서 검증 가능한 학습 신호의 확장은 여전히 중요한 제약 요인입니다. 논리 추론은 자연스러운 기반이 될 수 있습니다. 왜냐하면 제약 조건은 형식화되어 있으며, 답변은 프로그래밍적으로 검증 가능하기 때문입니다. 그러나 기존의 합성 파이프라인은 전문가가 작성한 코드에 의존하거나, 고정된 템플릿/구조 내에서 작동하여, 주로 인스턴스 수준의 변화에만 국한됩니다. 본 논문에서는 SSLogic이라는 에이전트 기반 메타-합성 프레임워크를 제안합니다. SSLogic은 실행 가능한 생성기-검증기 프로그램 쌍을 반복적으로 합성하고 수정하는 폐쇄형 생성-검증-수정 루프를 통해 작업 패밀리 수준에서 확장을 가능하게 하며, 이를 통해 제어 가능한 난이도를 가진 지속적인 패밀리 진화를 지원합니다. 신뢰성을 확보하기 위해, 우리는 다중 전략 일관성 검사와 적대적 블라인드 리뷰를 결합한 멀티 게이트 검증 프로토콜을 도입합니다. 독립적인 에이전트는 모호하거나 잘못 구성된 작업을 필터링하기 위해 코드 작성 및 실행을 통해 인스턴스를 해결해야 합니다. 400개의 초기 패밀리에서 시작하여, 두 번의 진화 단계를 거쳐 953개의 패밀리와 21,389개의 검증 가능한 인스턴스(5,718개에서)로 확장되었습니다. SSLogic으로 진화된 데이터로 학습하면, 동일한 학습 단계를 기준으로 초기 기준 모델보다 일관된 성능 향상을 보입니다. SynLogic은 +5.2, BBEH는 +1.4, AIME25는 +3.0, Brumo25는 +3.7의 성능 향상을 달성했습니다.
Scaling verifiable training signals remains a key bottleneck for Reinforcement Learning from Verifiable Rewards (RLVR). Logical reasoning is a natural substrate: constraints are formal and answers are programmatically checkable. However, prior synthesis pipelines either depend on expert-written code or operate within fixed templates/skeletons, which limits growth largely to instance-level perturbations. We propose SSLogic, an agentic meta-synthesis framework that scales at the task-family level by iteratively synthesizing and repairing executable Generator--Validator program pairs in a closed Generate--Validate--Repair loop, enabling continuous family evolution with controllable difficulty. To ensure reliability, we introduce a Multi-Gate Validation Protocol that combines multi-strategy consistency checks with Adversarial Blind Review, where independent agents must solve instances by writing and executing code to filter ambiguous or ill-posed tasks. Starting from 400 seed families, two evolution rounds expand to 953 families and 21,389 verifiable instances (from 5,718). Training on SSLogic-evolved data yields consistent gains over the seed baseline at matched training steps, improving SynLogic by +5.2, BBEH by +1.4, AIME25 by +3.0, and Brumo25 by +3.7.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.