올바른 질문 던지기: 생성된 디딤돌을 활용한 추론 능력 향상
Asking the Right Questions: Improving Reasoning with Generated Stepping Stones
최근 몇 년간 수학 및 코딩과 같은 복잡한 추론 과제를 해결하는 대형 언어 모델(LLM)의 능력에서 엄청난 진전이 있었다. 단번에 해결하기 어려운 더 복잡한 과제에 LLM을 적용하기 시작하면서, 모델이 과제를 더 잘 해결할 수 있도록 준비시키는 중간 단계의 '디딤돌(stepping stones)'을 구성하는 능력에 주목할 필요가 있다. 디딤돌의 예로는 문제 단순화, 대안적 프레이밍, 하위 문제 분할 등이 있다. 본 연구에서는 기본 추론 파이프라인에 질문 생성기를 도입한 간단한 프레임워크인 ARQ(Asking the Right Questions)를 통해 최신 추론 LLM 환경에서 디딤돌의 특성과 이점을 분석한다. 우선, 훌륭한 디딤돌 질문이 존재하며 전이 가능하다는 것을 보여준다. 이는 좋은 질문을 생성할 수 있으며, 이러한 질문이 다양한 성능을 지닌 LLM들이 목표 과제를 해결하는 데 실질적인 도움을 준다는 것을 의미한다. 나아가 디딤돌 생성을 사후 학습(post-training) 과제로 설정하고, 합성 데이터를 활용한 지도 미세 조정(SFT) 및 강화 학습(RL)을 통해 LLM이 더 유용한 디딤돌을 생성하도록 미세 조정할 수 있음을 입증한다.
Recent years have witnessed tremendous progress in enabling LLMs to solve complex reasoning tasks such as math and coding. As we start to apply LLMs to harder tasks that they may not be able to solve in one shot, it is worth paying attention to their ability to construct intermediate stepping stones that prepare them to better solve the tasks. Examples of stepping stones include simplifications, alternative framings, or subproblems. We study properties and benefits of stepping stones in the context of modern reasoning LLMs via ARQ (\textbf{A}king the \textbf{R}ight \textbf{Q}uestions), our simple framework which introduces a question generator to the default reasoning pipeline. We first show that good stepping stone questions exist and are transferrable, meaning that good questions can be generated, and they substantially help LLMs of various capabilities in solving the target tasks. We next frame stepping stone generation as a post-training task and show that we can fine-tune LLMs to generate more useful stepping stones by SFT and RL on synthetic data.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.