마음 읽기 놀이: 사고 트리를 활용하여 코딩 작업에서의 추론 모델 정확도를 예측
Playing Psychic: Using Thought Trees to Predict Reasoning Models Accuracy on Coding Tasks
최근 대규모 언어 모델(LLM)의 발전은 테스트 시점의 확장(test-time scaling)이 복잡한 작업, 특히 코딩 분야에서 모델 성능을 크게 향상시킬 수 있음을 보여주었습니다. 이러한 패러다임에서 모델은 최종 답변을 생성하기 전에 중간 추론 과정을 생성하기 위해 더 많은 토큰을 사용합니다. 그러나 현재의 평가는 주로 경쟁 프로그래밍 벤치마크에 의존하는데, 이는 추론 능력의 전체 범위를 포괄하지 못할 수 있습니다. 본 연구에서는 최첨단 추론 모델의 실제 코딩 벤치마크에서의 성능을 체계적으로 분석했습니다. 이러한 모델의 성능에 대한 더 많은 통찰력을 얻기 위해, 기존 벤치마크에서 임의의 난이도와 구조를 가진 코딩 작업을 {f 자동으로 생성}하는 프로그래밍 방식을 고안했습니다. 이 프레임워크를 사용하여 분석한 결과, 추론 과정의 내용뿐만 아니라 구조 자체가 정확도를 예측하는 강력한 지표임을 확인했습니다. 이러한 점에 착안하여, 추론 과정을 표현하는 데 구조화된 사고 트리(thought-tree)를 제안합니다. 그 활용 방식을 보여주기 위해, 사고 트리에서 추출한 특징을 사용하여 추론 과정의 정확도를 예측하는 경량 분류기를 학습하고, 추출된 특징을 기반으로 구조적으로 비정상적인 추론 과정을 식별하고 재시도하면 낮은 복잡도 수준에서 일관된 성능 향상을 얻을 수 있음을 입증했습니다.
Recent advances in large language models (LLMs) have shown that test-time scaling can substantially improve model performance on complex tasks, particularly in the coding domain. Under this paradigm, models use a larger token budget during inference to generate intermediate reasoning traces before producing a final answer. However, current evaluations primarily rely on competitive programming benchmarks, which may not capture the full range of reasoning abilities. In this work, we perform a systematic study of frontier reasoning models to understand their performance on real-world coding benchmarks. To gain more insights into the performance of such models, we devise a programmatic way to {\em automatically generate} coding tasks of arbitrary difficulty and structure from existing benchmarks. Using this framework, our analysis reveals that the structure of a reasoning trace, not just its contents, is a strong predictor of correctness. Motivated by this, we propose structured thought-trees as means to represent reasoning traces. To illustrate their use, we train a lightweight classifier on features extracted from thought-trees to predict trace correctness, and demonstrate that flagging and retrying structurally anomalous traces based on the extracted features yields consistent gains at lower complexity levels.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.