LongCoT: 장기 추론 체인-오브-싱킹 (Chain-of-Thought) 능력 평가
LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning
언어 모델이 복잡한 자율 작업에 점점 더 많이 활용됨에 따라, 모델이 장기적인 관점에서 정확하게 추론하는 능력은 매우 중요해지고 있습니다. 이러한 능력의 핵심 요소는 길고 복잡한 추론 과정을 계획하고 관리하는 것입니다. 본 논문에서는 LongCoT를 소개합니다. LongCoT는 화학, 수학, 컴퓨터 과학, 체스, 논리를 아우르는 2,500개의 전문가가 설계한 문제로 구성된 확장 가능한 벤치마크이며, 최첨단 모델의 장기 추론 체인-오브-싱킹 능력을 정확하게 측정하기 위해 개발되었습니다. 각 문제는 짧은 입력과 검증 가능한 답으로 구성되어 있으며, 문제를 해결하려면 수천에서 수만 개의 추론 토큰에 이르는 상호 의존적인 단계로 구성된 그래프를 탐색해야 합니다. 각 단계는 개별적으로는 최첨단 모델이 쉽게 처리할 수 있지만, 전체적인 실패는 장기적인 추론 능력의 한계를 반영합니다. 현재까지 가장 뛰어난 모델조차도 LongCoT에서 10% 미만의 정확도를 보였습니다 (GPT 5.2: 9.8%, Gemini 3 Pro: 6.1%), 이는 현재 모델의 능력에 상당한 격차가 있음을 보여줍니다. 전반적으로, LongCoT는 장기 추론 능력을 엄격하게 측정하는 도구이며, 최첨단 모델이 얼마나 안정적으로 장기간 추론을 수행할 수 있는지 파악하는 데 활용될 수 있습니다.
As language models are increasingly deployed for complex autonomous tasks, their ability to reason accurately over longer horizons becomes critical. An essential component of this ability is planning and managing a long, complex chain-of-thought (CoT). We introduce LongCoT, a scalable benchmark of 2,500 expert-designed problems spanning chemistry, mathematics, computer science, chess, and logic to isolate and directly measure the long-horizon CoT reasoning capabilities of frontier models. Problems consist of a short input with a verifiable answer; solving them requires navigating a graph of interdependent steps that span tens to hundreds of thousands of reasoning tokens. Each local step is individually tractable for frontier models, so failures reflect long-horizon reasoning limitations. At release, the best models achieve <10% accuracy (GPT 5.2: 9.8%; Gemini 3 Pro: 6.1%) on LongCoT, revealing a substantial gap in current capabilities. Overall, LongCoT provides a rigorous measure of long-horizon reasoning, tracking the ability of frontier models to reason reliably over extended periods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.