사고 과정 추적을 활용한 검색 증강 생성(RAG)이 추론 작업 성능을 향상시킬 수 있다
RAG over Thinking Traces Can Improve Reasoning Tasks
검색 증강 생성(RAG)은 지식 집약적인 작업에 효과적인 것으로 입증되었지만, 수학 문제 해결이나 코드 생성과 같은 추론 집약적인 문제에서는 제한적인 효과를 가진다는 것이 일반적인 믿음입니다. 본 연구는 이러한 가정에 도전하며, 제한성은 RAG 자체보다는 코퍼스 선택에 있다는 것을 보여줍니다. 기존의 문서 검색 대신, 문제 해결 시 생성되는 중간 사고 과정, 즉 '사고 과정 추적(thinking traces)'을 검색 대상으로 제안합니다. 사고 과정 추적이 이미 강력한 검색 자료임을 입증하고, 이를 구조화하여 검색에 용이하게 만들 수 있는 오프라인 방법인 T3를 소개하여 활용성을 높입니다. 사고 과정 추적을 코퍼스로 사용하여 간단한 검색 후 생성 파이프라인을 적용한 결과, AIME 2025-2026, LiveCodeBench, GPQA-Diamond과 같은 강력한 모델 및 벤치마크에서 일관적으로 추론 성능이 향상되었으며, 기존의 RAG 방식이나 일반적인 웹 코퍼스 검색 방식보다 우수한 성능을 보였습니다. 예를 들어, AIME 데이터셋에서 Gemini-2-thinking에 의해 생성된 사고 과정 추적을 활용한 RAG는 Gemini-2.5-Flash, GPT-OSS-120B, GPT-5 모델에서 각각 +56.3%, +8.6%, +7.6%의 성능 향상을 보였는데, 이는 더 최신 모델임에도 불구하고 나타난 결과입니다. 흥미롭게도, T3를 사용한 RAG는 거의 또는 전혀 추가적인 추론 비용을 발생시키지 않으며, 오히려 최대 15%까지 추론 비용을 절감할 수 있습니다. 종합적으로, 본 연구 결과는 사고 과정 추적이 추론 작업에 효과적인 검색 코퍼스이며, 이를 구조화하거나 압축하여 표현하는 것은 더 큰 성능 향상을 가져올 수 있음을 시사합니다. 관련 코드는 https://github.com/Narabzad/t3 에서 확인할 수 있습니다.
Retrieval-augmented generation (RAG) has proven effective for knowledge-intensive tasks, but is widely believed to offer limited benefit for reasoning-intensive problems such as math and code generation. We challenge this assumption by showing that the limitation lies not in RAG itself, but in the choice of corpus. Instead of retrieving documents, we propose retrieving thinking traces, i.e., intermediate thinking trajectories generated during problem solving attempts. We show that thinking traces are already a strong retrieval source, and further introduce T3, an offline method that transforms them into structured, retrieval-friendly representations, to improve usability. Using these traces as a corpus, a simple retrieve-then-generate pipeline consistently improves reasoning performance across strong models and benchmarks such as AIME 2025--2026, LiveCodeBench, and GPQA-Diamond, outperforming both non-RAG baselines and retrieval over standard web corpora. For instance, on AIME, RAG with traces generated by Gemini-2-thinking achieves relative gains of +56.3%, +8.6%, and +7.6% for Gemini-2.5-Flash, GPT-OSS-120B, and GPT-5, respectively, even though these are more recent models. Interestingly, RAG on T3 also incurs little or no extra inference cost, and can even reduce inference cost by up to $15%$. Overall, our results suggest that thinking traces are an effective retrieval corpus for reasoning tasks, and transforming them into structured, compact, or diagnostic representations unlocks even stronger gains. Code available at https://github.com/Narabzad/t3.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.