ANCORA: 매니폴드 기반 앵커링을 통한 자기 학습을 통한 질문 생성: 검증 가능한 추론을 위한 접근 방식
ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning
본 논문에서는 질문에 답하는 것을 학습하는 기존 방식에서 벗어나, 질문을 생성하는 것을 학습하는 새로운 패러다임을 제안합니다. 언어 모델이 인간의 감독 없이 검증 가능한 문제를 생성하고, 이를 해결하며, 그 결과로 얻은 피드백을 통해 스스로를 개선할 수 있을까요? 우리는 ANCORA라는 앵커링 기반 커리큘럼 프레임워크를 소개합니다. ANCORA는 하나의 정책을 사용하여 새로운 사양을 생성하는 '제안자(Proposer)'와 검증된 해결책을 생성하는 '해결사(Solver)' 역할을 번갈아 수행합니다. ANCORA는 세 가지 핵심 메커니즘에 기반합니다. 첫째, 사양 간의 제안자 성능과 해결 시도 간의 해결사 성능을 연결하는 2단계 그룹 상대적 업데이트입니다. 둘째, 강화 학습(RL)을 수행하기 전에 기본 모델을 유효한 출력 매니폴드로 투영하는 반복적인 자기 증류 지도 학습(SFT)입니다. 셋째, 엄격하게 필터링되고, 새롭고, 해결사가 검증한 사양만을 사용하여 성장하는 UCB 기반 커리큘럼 방향성 그래프(DAG)입니다. 이러한 안정화 메커니즘은 희소한 검증자 피드백이 강화 학습 기반 강화 학습(MLRL)에 맞춰진 보상을 받더라도 제안자 성능 저하를 초래할 수 있기 때문입니다. Verus 환경에서 구현된 ANCORA는 Dafny2Verus의 pass@1 성능을 26.6%의 SFT 기준선에서 81.5%로 향상시켰습니다. 이는 1회 추론을 사용하는 PSV 자기 학습 기준선보다 15.8% 높은 수치입니다. 별도의 전이 학습 설정에서는, Dafny2Verus 데이터셋을 사용하여 학습한 모델이 보류된 MBPP 및 HumanEval 데이터셋에서 각각 36.2% 및 17.2%의 pass@1 성능을 보였습니다.
We propose a paradigm shift from learning to answer to learning to question: can a language model generate verifiable problems, solve them, and turn the resulting feedback into self-improvement without human supervision? We introduce ANCORA, an anchored-curriculum framework in which a unified policy alternates between a Proposer that synthesizes novel specifications and a Solver that produces verified solutions. ANCORA rests on three load-bearing mechanisms: a two-level group-relative update that couples Proposer advantages across specifications with Solver advantages across solution attempts; iterative self-distilled SFT that projects the base model onto its valid-output manifold before RL; and a UCB-guided Curriculum DAG that grows only through strictly filtered, novel, Solver-verified specifications. These stabilizers are necessary because sparse verifier feedback otherwise drives Proposer collapse even under MLRL-aligned rewards. Instantiated in Verus, ANCORA lifts Dafny2Verus pass@1 from a 26.6% SFT baseline to 81.5% in the test-time-training setting under 0-shot evaluation, outperforming the PSV self-play baseline by 15.8 points despite PSV using 1-shot inference; in a separate transfer setting, training from Dafny2Verus seeds yields 36.2% and 17.2% pass@1 on held-out MBPP and HumanEval.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.