TTCS: 테스트 시기 커리큘럼 합성 기반의 자가 진화 모델
TTCS: Test-Time Curriculum Synthesis for Self-Evolving
테스트 시기 학습(Test-Time Training)은 모델이 테스트 질문만을 사용하여 학습함으로써 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 유망한 방법입니다. 그러나 기존 방법은 어려운 추론 문제에 대해 두 가지 이유로 어려움을 겪습니다. 첫째, 원본 테스트 질문은 종종 너무 어려워 고품질의 유사 레이블을 생성하기 어렵고, 둘째, 제한된 테스트 데이터 크기로 인해 지속적인 온라인 업데이트가 불안정해질 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 TTCS라는 공진화 테스트 시기 학습 프레임워크를 제안합니다. 구체적으로, TTCS는 동일한 사전 학습된 모델에서 두 가지 정책을 초기화합니다. 즉, 질문 생성기(question synthesizer)와 추론 해결기(reasoning solver)입니다. 이러한 정책은 반복적인 최적화를 통해 진화합니다. 질문 생성기는 테스트 질문을 기반으로 점진적으로 더 어려운 질문 변형을 생성하여 해결기의 현재 능력에 맞는 체계적인 커리큘럼을 만들고, 해결기는 원래의 테스트 질문과 생성된 질문 모두에 대한 여러 샘플 응답에서 계산된 자기 일관성 보상을 사용하여 자체적으로 업데이트됩니다. 중요한 점은, 해결기의 피드백은 모델의 현재 능력에 맞는 질문을 생성하도록 질문 생성기를 안내하고, 생성된 질문 변형은 해결기의 테스트 시기 학습을 안정화시킵니다. 실험 결과, TTCS는 어려운 수학적 벤치마크에서 추론 능력을 꾸준히 향상시키고, 다양한 LLM 아키텍처에서 일반 도메인 작업으로 이전되는 것을 보여주며, 이는 자가 진화 모델을 위한 동적으로 테스트 시기 커리큘럼을 구축하는 확장 가능한 방법을 제시합니다. 저희의 코드 및 구현 세부 사항은 https://github.com/XMUDeepLIT/TTCS 에서 확인할 수 있습니다.
Test-Time Training offers a promising way to improve the reasoning ability of large language models (LLMs) by adapting the model using only the test questions. However, existing methods struggle with difficult reasoning problems for two reasons: raw test questions are often too difficult to yield high-quality pseudo-labels, and the limited size of test sets makes continuous online updates prone to instability. To address these limitations, we propose TTCS, a co-evolving test-time training framework. Specifically, TTCS initializes two policies from the same pretrained model: a question synthesizer and a reasoning solver. These policies evolve through iterative optimization: the synthesizer generates progressively challenging question variants conditioned on the test questions, creating a structured curriculum tailored to the solver's current capability, while the solver updates itself using self-consistency rewards computed from multiple sampled responses on both original test and synthetic questions. Crucially, the solver's feedback guides the synthesizer to generate questions aligned with the model's current capability, and the generated question variants in turn stabilize the solver's test-time training. Experiments show that TTCS consistently strengthens the reasoning ability on challenging mathematical benchmarks and transfers to general-domain tasks across different LLM backbones, highlighting a scalable path towards dynamically constructing test-time curricula for self-evolving. Our code and implementation details are available at https://github.com/XMUDeepLIT/TTCS.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.