2604.11778v1 Apr 13, 2026 cs.CL

General365: 다양한 도전 과제를 포함하는 대규모 언어 모델의 일반적인 추론 능력 벤치마킹

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Shuang Zhou
Shuang Zhou
Citations: 8,593
h-index: 6
Shengnan An
Shengnan An
Xi'an Jiaotong University
Citations: 630
h-index: 10
Yifan Zhou
Yifan Zhou
Citations: 169
h-index: 7
Ying Xie
Ying Xie
Citations: 2
h-index: 1
Xiaoyu Li
Xiaoyu Li
Citations: 65
h-index: 5
Junling Liu
Junling Liu
Citations: 604
h-index: 8
Ziwen Wang
Ziwen Wang
Citations: 9
h-index: 2
Xuezhi Cao
Xuezhi Cao
Citations: 23
h-index: 2
Dan Ma
Dan Ma
Citations: 293
h-index: 4
Shi Luo
Shi Luo
Citations: 10
h-index: 1
Yuan Zhang
Yuan Zhang
Citations: 56
h-index: 3
Wenling Yuan
Wenling Yuan
Citations: 24
h-index: 4
Xunliang Cai
Xunliang Cai
Citations: 31
h-index: 4

최근의 대규모 언어 모델(LLM)은 특히 수학 및 물리학과 같은 전문 분야에서 놀라운 추론 능력을 보여주었습니다. 그러나 이러한 추론 능력을 더욱 일반적이고 광범위한 맥락, 즉 '일반적인 추론'으로 일반화하는 능력은 아직 충분히 연구되지 않았습니다. 전문 분야에 특화된 추론과는 달리, 일반적인 추론은 전문 지식에 덜 의존하지만, 복잡한 제약 조건, 중첩된 논리적 구조, 의미적 간섭과 같은 상당한 추론적 어려움을 제시합니다. 이러한 격차를 해소하기 위해, LLM의 일반적인 추론 능력을 평가하도록 특별히 설계된 벤치마크인 General365를 소개합니다. General365는 배경 지식을 초등학교 수준으로 제한하여 추론을 전문 지식과 명시적으로 분리합니다. 이 벤치마크는 8가지 범주에 걸쳐 365개의 기본 문제와 1,095개의 변형 문제를 포함하여 높은 난이도와 다양성을 보장합니다. 26개의 선도적인 LLM에 대한 평가 결과, 최고 성능을 보이는 모델조차도 62.8%의 정확도를 달성하는 데 그쳤으며, 이는 수학 및 물리학 벤치마크에서 LLM이 보이는 거의 완벽한 성능과는 대조적입니다. 이러한 결과는 현재 LLM의 추론 능력이 특정 분야에 크게 의존한다는 것을 시사하며, 더 광범위한 응용 분야에서 개선될 여지가 많다는 것을 보여줍니다. 저희는 General365가 LLM의 추론 능력을 특정 분야의 작업에서 벗어나 견고하고 일반적인 실세계 시나리오로 발전시키는 데 기여할 것이라고 기대합니다. 코드, 데이터셋 및 리더보드: https://general365.github.io

Original Abstract

Contemporary large language models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in specialized domains like mathematics and physics. However, their ability to generalize these reasoning skills to more general and broader contexts--often termed general reasoning--remains under-explored. Unlike domain-specific reasoning, general reasoning relies less on expert knowledge but still presents formidable reasoning challenges, such as complex constraints, nested logical branches, and semantic interference. To address this gap, we introduce General365, a benchmark specifically designed to assess general reasoning in LLMs. By restricting background knowledge to a K-12 level, General365 explicitly decouples reasoning from specialized expertise. The benchmark comprises 365 seed problems and 1,095 variant problems across eight categories, ensuring both high difficulty and diversity. Evaluations across 26 leading LLMs reveal that even the top-performing model achieves only 62.8% accuracy, in stark contrast to the near-perfect performances of LLMs in math and physics benchmarks. These results suggest that the reasoning abilities of current LLMs are heavily domain-dependent, leaving significant room for improvement in broader applications. We envision General365 as a catalyst for advancing LLM reasoning beyond domain-specific tasks toward robust, general-purpose real-world scenarios. Code, Dataset, and Leaderboard: https://general365.github.io

1 Citations
0 Influential
5 Altmetric
26.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!