불(Boule)인가, 바게트(Baguette)인가? 과제 위상, 길이 일반화, 그리고 추론 흔적의 이점에 관한 연구
Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces
최근 몇 년간 최종 출력을 생성하기 전에 중간 추론 흔적(RT)을 생성하는 신경망인 추론 모델에서 비약적인 발전이 있었다. 이러한 급속한 발전에도 불구하고, RT가 추론을 어떻게 지원하는지와 이 패러다임의 한계에 대한 우리의 이해는 여전히 불완전하다. 이를 더 명확히 하기 위해, 우리는 명제 논리의 2,300만 개 이상의 진술과 그에 상응하는 증명으로 구성된 새로운 대규모 데이터셋인 PITA를 소개한다. 견고한 추론을 위한 벤치마크로서 우리는 길이 일반화에 초점을 맞춘다. 즉, 모델이 고정된 길이까지의 증명을 가진 진술에 대해 참 또는 거짓을 판별하도록 훈련받았을 때, 더 긴 증명을 필요로 하는 진술에 대해 얼마나 잘 일반화할 수 있는가? 우리는 (1) 과제 깊이와 (2) 과제 너비의 개념을 제안하는데, 이는 각각 (1) 과제의 예제를 해결하는 데 필요한 단계 수와 (2) 과제 전반에 걸친 고유 예제의 수를 측정한다. 우리는 PITA의 하위 집합들에 걸쳐 이러한 수치들을 변화시켰으며, RT 모델이 넓고 얕은 하위 집합에서는 잘 일반화되지만, 좁고 깊은 하위 집합에서는 비(non)-RT 베이스라인에 비해 성능이 저하된다는 것을 발견했다. 우리의 결과가 PITA에 국한된 특이한 것인지 아니면 일반적인 현상을 나타내는 것인지를 확인하기 위해, 우리는 결과를 삼단논법에 기초한 간단한 합성 과제와 비교한다. 우리의 결과적인 이론은 깊은 과제에서 RT 모델의 수행 능력을 제한하는 근본적인 스케일링 법칙을 제시하며, 넓은 과제에서의 일반화 강점을 강조한다. 종합적으로 우리의 연구 결과는 추론 흔적 사용에 내재된 근본적인 이점과 한계를 규명한다.
Recent years have witnessed meteoric progress in reasoning models: neural networks that generate intermediate reasoning traces (RTs) before producing a final output. Despite the rapid advancement, our understanding of how RTs support reasoning, and the limits of this paradigm, remain incomplete. To promote greater clarity, we introduce PITA: a novel large-scale dataset of over 23 million statements in propositional logic and their corresponding proofs. As a benchmark for robust reasoning, we focus on length generalization: if a model is trained to determine truth or falsity on statements with proofs up to fixed length, how well does it generalize to statements requiring longer proofs? We propose notions of (1) task depth and (2) task breadth, which measure respectively (1) the number of steps required to solve an example from a task and (2) the number of unique examples across a task. We vary these quantities across subsets of PITA, and find that RT models generalize well on broad and shallow subsets, while deteriorating on narrow and deep subsets relative to non-RT baselines. To determine whether our results are idiosyncratic to PITA or indicative of general phenomena, we compare our results to a simple synthetic task based on syllogisms. Our resulting theory suggests fundamental scalings that limit how well RT models perform on deep tasks, and highlights their generalization strengths on broad tasks. Our findings overall identify fundamental benefits and limitations inherent in using reasoning traces.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.