Cog-DRIFT: 적응적으로 재구성된 문제 인스턴스를 활용한 학습을 통한 어려운 추론 문제 해결
Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems
검증 가능한 보상을 활용한 강화 학습(RLVR)은 LLM의 추론 능력을 향상시켰지만, 여전히 근본적인 한계가 존재합니다. 모델은 현재 정책 하에서 풀기 너무 어려운 문제로부터 학습할 수 없는데, 이는 의미 있는 보상 신호를 제공하지 않기 때문입니다. 우리는 작업 재구성을 기반으로 하는 간단하면서도 효과적인 솔루션을 제안합니다. 우리는 어려운 개방형 문제를 객관식, 지상 채우기 형식과 같은 인지적으로 더 간단한 변형으로 변환합니다. 이러한 변형은 원래의 답을 유지하면서 효과적인 탐색 공간을 줄이고 더 밀집된 학습 신호를 제공합니다. 이러한 재구성은 판별적 작업에서 생성적 작업에 이르기까지 다양한 범위를 포괄하며, 이를 활용하여 학습을 시작합니다. 모델은 먼저 구조화되고 쉬운 형식으로부터 학습하고, 이 지식은 원래의 개방형 문제에 대한 성능을 향상시키는 데 활용됩니다. 이러한 통찰력을 바탕으로, 우리는 재구성된 변형을 생성하고 난이도에 따라 적응형 교육 과정을 구성하는 프레임워크인 Cog-DRIFT를 소개합니다. 학습은 쉬운 형식에서 어려운 형식으로 진행되면서, 모델은 기존의 표준 RL 후속 학습에서 0의 신호를 제공했던 문제로부터 학습할 수 있습니다. Cog-DRIFT는 원래 해결할 수 없었던 어려운 문제에 대해 상당한 성능 향상(Qwen의 경우 +10.11%, Llama의 경우 +8.64%)을 보일 뿐만 아니라, 다른 테스트 데이터셋에도 잘 일반화됩니다. 2개의 모델과 6개의 추론 벤치마크에서, 우리의 방법은 표준 GRPO 및 강력한 가이드 탐색 기준보다 일관되게 우수한 성능을 보였습니다. 평균적으로, Cog-DRIFT는 Qwen의 경우 +4.72%, Llama의 경우 +3.23%의 성능 향상을 보였습니다. 또한, Cog-DRIFT는 테스트 시 pass@k를 개선하고, 교육 과정이 샘플 효율성을 향상시키는 것을 보여줍니다. 전반적으로, 우리의 결과는 작업 재구성 및 교육 과정 학습이 LLM 후속 학습에서의 탐색 장벽을 극복하는 효과적인 패러다임임을 강조합니다.
Reinforcement learning from verifiable rewards (RLVR) has improved the reasoning abilities of LLMs, yet a fundamental limitation remains: models cannot learn from problems that are too difficult to solve under their current policy, as these yield no meaningful reward signal. We propose a simple yet effective solution based on task reformulation. We transform challenging open-ended problems into cognitively simpler variants -- such as multiple-choice and cloze formats -- that preserve the original answer while reducing the effective search space and providing denser learning signals. These reformulations span a spectrum from discriminative to generative tasks, which we exploit to bootstrap learning: models first learn from structured, easier formats, and this knowledge transfers back to improve performance on the original open-ended problems. Building on this insight, we introduce Cog-DRIFT, a framework that constructs reformulated variants and organizes them into an adaptive curriculum based on difficulty. Training progresses from easier to harder formats, enabling the model to learn from problems that previously yielded zero signal under standard RL post-training. Cog-DRIFT not only improves on the originally unsolvable hard problems (absolute +10.11% for Qwen and +8.64% for Llama) but also generalizes well to other held-out datasets. Across 2 models and 6 reasoning benchmarks, our method consistently outperforms standard GRPO and strong guided-exploration baselines. On average, Cog-DRIFT shows +4.72% (Qwen) and +3.23% (Llama) improvements over the second-best baseline. We further show that Cog-DRIFT improves pass@k at test time, and the curriculum improves sample efficiency. Overall, our results highlight task reformulation and curriculum learning as an effective paradigm for overcoming the exploration barrier in LLM post-training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.